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本 书 在 Python 数据 分 析 与 建 模 方面 ,既是 一 本 入 门 书 ,也 是 一 本 提高 书 , 它 提炼 总 结 了 作者 从 
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者 惊喜 。 书 中 代码 具有 很 高 的 可 移植 性 ,可 供 读者 直接 使 用 。 
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Python H 20 世纪 90 年 代 初 诞生 以 来 ,已 逐渐 被 越 来 越 多 的 开发 者 所 接受 甚至 着 迷 。 
当然 ,这 与 其 本 身 的 简洁 性 、 易 读 性 以 及 可 拓展 性 密 不 可 分 。Python 具有 丰富 而 强大 的 
库 , 它 能 够 很 轻松 地 与 其 他 语言 的 各 种 模块 相 结合 。 如 果 读 者 第 一 次 见 到 用 Python 编写 
的 语句 ,估计 会 被 其 整齐 划一 的 设计 风格 所 触动 ,Python 的 最 大 优点 是 易 读 、 易 维护 。 

本 书 以 * 零 基础 ?为 出 发 点 ,直接 从 实际 应 用 案例 人手 ,在 内 容 方 面 更 注重 实战 
性 。 希望 读 者 能 在 学 习 中 不 断 思考 ,学 以 致 用 。 

在 本 书 的 编写 过 程 中 ,结合 工作 中 的 一 些 具体 案例 ,整理 成 书 。 由 于 作者 水 平 有 
限 ,疏漏 在 所 难免 ,读者 如 发 现 问题 ,欢迎 您 及 时 指正 。 

特别 声明 ,本 书 非 系统 性 学 习 资料 ,内 容 的 准备 上 有 点 跳跃 ,学 习 某 些 内 容 时 还 
需要 具备 一 些 相关 的 基础 知识 ,Google 和 百度 会 是 阅读 过 程 中 的 常 伴 。 

为 便于 教学 ,本 书 有 教学 视频 、 源 代码 .课件 等 配套 资源 。 

(1) 获取 教学 视频 方式 : 读者 可 以 先 扫描 本 书 封底 的 文 泉 云 盘 防 盗 码 ,再 扫描 书 
中 相应 的 视频 二 维 码 ,观看 教学 视频 。 

(2) 获取 源 代 码 ,数据 集 方式 : 先 扫 描 本 书 封底 的 文 泉 云 盘 防盗 码 , 再 扫描 下 方 
二 维 码 , 即 可 获取 。 
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Python 开发 环境 搭建 


Python 是 一 种 面向 对 象 的 解释 型 计算 机 程序 设计 语言 ,于 1989 年 由 荷兰 人 
Guido van Rossum 发 明 。1991 年 ,第 一 个 公开 的 Python 版 正式 发 行 。 

近年 来 , 随 着 机 器 学 习 、 深 度 学 习 的 快速 发 展 ,Python 的 受 欢 迎 程度 越 来 越 高 ， 
具体 的 排名 顺序 可 以 查看 TIOBE 官网 : https://www. tiobe. com/tiobe-index/。 
2018 Æ 7 月 Python 的 排名 是 第 4 名 ,如 图 1-1 所 示 。 


Apr 2018 Apr 2017 Change Programming Language Ratings Change 
1 1 Java 15.777% +0.21% 
2 2 c 13.589% +6.62% 
3 3 C++ 7.218% +266% 
4 5 ^ Python 5.803% +2.35% 
5 4 {v c# 5.265% +1.69% 
6 7 ^ Visual Basic .NET 4.947% +1.70% 
7 6 v PHP 4.218% +0.84% 


图 1-1 TIOBE 2018 4€ 7 月 编程 语言 排行 榜 
2018 年 3 月 ,Python 作者 在 邮件 列表 上 宣布 将 于 2020 年 1 月 1 日 终止 支持 
Python 2.7 版 本 。 同 时 ,由 于 越 来 越 多 的 第 三 方 库 都 不 再 维护 Python 2 版 本 ， 
Python 3 是 大 势 所 趋 。 本 书 主要 讲述 Python 3 的 用 法 .有关 Python 2 的 用 法 部 分 ， 
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会 做 特殊 说 明 。 
工 欲 善 其 事 , 必 先 利 其 器 。 在 实际 开发 Python 代码 的 过 程 中 ,我 们 常用 的 “ 利 
器 ”有 哪些 呢 ? 


本 章 只 是 简单 地 对 Windows 系统 上 相关 Python 开发 软件 的 安装 过 程 进行 讲 
解 ,而 Mac OS 系统 上 的 安装 过 程 与 之 类 似 。Linux 系统 上 的 安装 ,可 以 使 用 Google 
或 者 百度 来 查找 相关 的 安装 教程 。 在 Linux 系统 上 安装 相关 软件 时 ,可 能 会 遇 到 提 
示 的 错误 信息 情况 ,可 在 网 上 搜 出 相应 的 解决 办 法 。 


1.1 利器 1: Notepad 编辑 器 


Notepad( 记 事 本 ) 是 代码 编辑 器 或 Windows 中 的 小 程序 ,用 于 文本 编辑 ,是 一 款 
开源 ,小巧 、 免 费 的 纯 文本 编辑 器 ,具有 运行 便携 ,体积 小 、 资 源 占用 小 ,以 及 支持 众多 
程序 语言 等 优点 。Notepad 支持 的 语言 有 C++、C# Java 等 主流 程序 语言 ,HTML、 
XML、Python、JavaScript 等 网 页 /脚本 语言 。Notepad 内 置 支持 多 达 27 种 语法 高 亮 
度 显示 ,还 可 实现 语法 折 秋 、 宏 等 常用 功能 。Notepad 的 官网 链接 地 址 为 : https:// 


notepad-plus-plus. org/ ,对 应 的 界面 如 图 1-2 所 示 。 


About 


图 1-2 Notepad 官网 首页 界面 图 
安装 好 Notepad 之 后 ,其 操作 界面 如 图 1-3 所 示 。 
Notepad 的 优点 主要 包括 以 下 5 个 方面 。 
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文件 (日 SAO SAO 视图 (V) 格式 (M) EEU RED AO 运行 (R) 播 件 P) BOW 了 
LEL E LE EE EEEN (eos mor 
El test. pd 


I # coding:utf-8 


本 代码 主要 后 根据 缺失 情况 ， 删 除 相关 变量 ， 并 根据 业务 含义 ， 处 理 变量 


D 
10 $1 导入 相关 库 

11 import os 

12 import numpy as np 

13 import pandas as pd 

14 import warnings 

18  warnings.filterwarnings('ignore') + 忽略 弹出 的 warnings 


图 1-3 Notepad 界面 图 

(1) 语法 高 亮 , 具 有 字 词 自动 完成 功能 ,支持 同时 编辑 多 重文 档 ; 支持 自 定义 语言 。 

(2) 自动 检测 文件 类 型 ,根据 关键 字 显示 节点 ,节点 可 自由 折 笃 或 打开 ,还 可 显 
示 缩 进 引 导线 ,使 代码 富有 层次 感 。 

(3) 在 分 窗口 中 又 可 打开 多 个 子 窗口 ,可 以 使 用 F11 键 快 捷 切 换 至 全 屏 显 示 模 
式 , 支 持 鼠标 滚轮 改变 文档 显示 比例 。 

(4) 可 显示 选中 文本 的 字 节 数 ,并 非 普 通 编辑 器 所 显示 的 字数 ; 提供 了 一 些 实用 
工具 ,如 邻 行 互 换 位置 、 宏 功能 等 。 

(5) 能 够 进行 列 块 编辑 ,可 快速 地 搬入 或 者 删除 文本 ,能 够 成 批 蔡 换 文本 。 


1.2 利器 2: Anaconda 


Anaconda 可 以 简单 地 理解 为 一 个 工具 箱 ,其 中 包含 了 conda, flask .nltk pandas, 
pip 等 180 多 个 科学 包 及 其 依赖 项 ,可 以 方便 地 实现 包 的 安装 .更 新 和 利 载 ,比如 机 器 
学 习 包 scikit-learn、 词 云 包 wordcloud 等 。Anaconda 最 大 的 好 处 在 于 它 集 成 了 
Jupyter Notebook 和 Spyder, 这 两 个 工具 可 以 快速 地 让 我 们 看 到 代码 的 运行 结果 ,以 
便 进行 调试 。 

Anaconda 官网 链接 地 址 为 : https://www. anaconda. com, 官 网 首页 如 图 1-4 所 
示 。Anaconda 下 载 链 接地 址 为 : https://www. anaconda. com/download/ fil 
https: //repo. continuum. io/archive/ ,如 图 1-5 和 图 1-6 所 示 。 
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Download Anaconda Distribution 


ETE) 


图 1-5 Anaconda 下 载 界面 图 (1) 


Anaconda installer archive 


Filename Size Last Modified MD5 
Anaconda2-5. 2. 0-Linux-ppc64le. sh 269.6M — 2018-05-30 13:04:31  479633a95906ea6d41056ebe84a4c47b 
Anaconda2-5. 2. 0-Linux-x86. sh 488.7M — 2018-05-30 13:05:30 ^ 758e172a824f467ea6b55d3d076c132f 
Anaconda2-5. 2. 0-Linux-x86 64. sh 603.4M — 2018-05-30 13:04: 5c034a4ab36ec9b6ae01f213d8a04462 
Anaconda2-5. 2. 0-Mac0SX-x86 64. pkg 616.8M — 2018-05-30 13:05: 2836c839d29be8d9569a7 15f4c631a3b 
Anaconda: . 0-MacOSX-x86 64. sh 527.1M — 2018-05-30 13:05: b1f3fcf58955830b65613a4a8d75c3cf 
Anaconda2-5. 2. 0-Windows-x86. exe 443.4M — 2018-05-30 13:04: 4a3129b14c2d3fccd32050821679c702 
Anaconda2-5. 2. 0-Windows-x86 64. exe 564.04 — 2018-05-30 13:04: 595e427e4b625b6eab92623a28dc4e21 
. 2. 0-Linux-ppc64le. sh 288.3M — 2018-05-30 13:05: cbdld5435ead2b0b97dbaSb3cf45d694 
. 0-Linux-x86. sh 507.3M — 2018-05-30 13:05: 81d5a1648e3aca4843f88ca3769c0830 
. 0-Linux-x86 64. sh 621.6M — 2018-05-30 13:05: Se58f494ab9fbe12db4460dc152377b5 
j. 2. 0-MacOSX-x86 64. pkg 613.1M — 2018-05-30 13:07: 9c35bf27e9986701£7480241616c665f 
2. 0-MacOSX-x86 64. sh 523.3M — 2018-05-30 13:07: b5b789c01e1992de55ee911754c310d4 
i. 2. 0-Windows-x86. exe 506.3M — 2018-05-30 13:04: 285387e7b6e281edba98c011922e235a 
.2. 631. 3M — 2018-05-30 13:04: 62244c038208142743622fdc3526eda7 
. 1. 0-Linux-ppc64le. sh 267.3M — 2018-02-15 09:08: ©894dec547alc7d67deb04f6bba7223a 
i. 1. 0-Linux-x86. sh 431. 3M — 2018-02-15 09:08 e26£9d3e53049£6632212270af 60987 
i. 1. O-Linux-x86 64. sh 533.0M — 2018-02-15 09:08: 5b1b5784cae93cf696e11e6698348756 
. 1. 0-MacOSX-x86 64. pkg 588.0M — 2018-02-15 09:08: 4f9c197dfe6d3dc7e50a8611b4d3cfa2 
Anaconda2-5. 1. 0-MacOSX-x86 64. sh 505.9M — 2018-02-15 09:08: €9845ccf61542523c5be09552311666e 
Anaconda2-5. 1. 0-Windows-x86. exe 419.8M — 2018-02-15 09:08: a09347a53e04al5ee965300c2b95dfde 


图 1-6 Anaconda 下 载 界面 


(2) 
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本 节 以 Anaconda3 5. 0. 0 为 例 , 进 行 安 装 说 明 。 
CD 选中 安装 包 , 右 击 , 再 单 击 * 以 管理 员 身份 运行 ”。 
(2) 单 击 Next 按钮 ,如 图 1-7 所 示 。 


© Anaconda3 5.0.0 (64-bit) Setup Lo) me 


Welcome to Anaconda3 5.0.0 
(64-bit) Setup 


$ ) Setup will guide you through the installation of Anaconda3 


5.0.0 (64-bit). 
ANACONDA 


It is recommended that you close all other applications 
before starting Setup. This will make it possible to update 
relevant system files without having to reboot your 
computer. 


Click Next to continue. 


图 1-7 Anaconda3 5.0. 0 安装 界面 图 (1) 


(3) 单 击 I Agree 按钮 ,如 图 1-8 所 示 。 


F License Agreement 
6 ANACONDA Please review the license terms before installing Anaconda3 
5.0.0 (64-bit). 


Press Page Down to see the rest of the agreement. 


Inda End User License Agreement 


|All rights reserved under the 3-clause BSD License: 


Redistribution and use in source and binary forms, with or without modification, are 
permitted provided that the following conditions are met: 

If you accept the terms of the agreement, click 1 Agree to continue. You must accept the 
agreement to install Anaconda3 5.0.0 (64-bit). 


Anaconda, Inc. — 


ma [ uum] [ om 


1-8 Anaconda3 5.0. 0 安装 界面 图 (2) 
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(4) 4)i# All Users(requires admin privileges) , 单 击 Next 按钮 ,如 图 1-9 所 示 。 


S zx mr 
= = 

| Select Installation Type 
©) ANACONDA Please select the type of installation you would like to perform 


for Anaconda3 5.0.0 (64-bit). 


Install for: 


|| © Just Me (recommended) 


@ AIl Users (requires admin privileges) 


图 1-9  Anaconda3 5.0. 0 安装 界面 图 (3) 
(5) 程序 默认 安装 位 置 为 C: \ProgramData\Anaconda3 , 单 击 Browse 可 选择 自 
定义 安装 目录 ,本 安装 教程 的 自 定义 安装 路 径 为 D;: NDevToolsN Anaconda3 , 单 击 
Next 按钮 ,如 图 1-10 所 示 。 


Choose Install Location 
© ANACONDA choose the folder in which to install Anaconda3 5.0.0 (64-bit). 


HU Vane eG ae To install in a different 
folder, click Browse and select another folder. Ch to continue. 


Destination Folder 


D:\DevTools\Anaconda3 Browse... 


Space required: 511.3MB 
Space available: 20.8GB 


Anaconda, Inc. 


<Back | Sueno Cancel 


1-10 Anaconda3 5.0.0 安装 界面 图 (4) 
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(6) 同时 色 选 Add Anaconda to the system PATH environment variable 和 
Register Anaconda as the system Python 3. 6. iz Install 按钮 ,如 图 1-11 所 示 。 


x | 


ANACONDA customize how Anaconda integrates with Windows 


Advanced Options 


|Add Anaconda to the system PATH environment variable 

Not recommended. Instead, open Anaconda with the Windows Start 
menu and select "Anaconda (64-bit)". This "add to PATH" option makes 
Anaconda get found before previously installed software, but may 
cause problems requiring you to uninstall and reinstall Anaconda. 


Register Anaconda as the system Python 3.6 

This will allow other programs, such as Python Tools for Visual Studio 
PyCharm, Wing IDE, PyDev, and MSI binary packages, to automatically 
detect Anaconda as the primary Python 3.6 on the system. 


Anaconda, Inc, 


(sm [ ren] (come | 


1-11 Anaconda3 5.0. 0 安装 界面 图 (5) 


(7) 安装 过 程 需 要 4 一 5 分 钟 , 单 击 Next 按钮 ,如 图 1-12 所 示 。 


Ir 


© Anaconda3 5.0.0 


Installation Complete 
ANACONDA setup was completed successfully. 


Completed 
aM ÉÓÓ— H€——— BÓ 


extraction complete. a 
Execute: "C:\Users\hf\AppData\Local\Temp\nsh6B71.tmp\pythonw.exe" -E -s "D:\D... 
Removing temporary files... 

Creating Anaconda3 menus... 

Execute: "D:\DevTools\Anaconda3\pythonw.exe" -E -s "D:\DevTools\Anaconda3\Lib... 
Running post install... 

Execute: "D:\DevTools\Anaconda3\pythonw.exe” -E -s "D:\DevTools\Anaconda3\Lib... 
Execute: "D:\DevTools\Anaconda3\pythonw.exe" -E -s "D:\DevTools\Anaconda3\pk... 
Created uninstaller: D:\DevTools\Anaconda3\Uninstall-Anaconda3.exe 

Completed 


Anaconda, Inc. 


[<Back 


图 1-12 Anaconda3 5. 0. 0 安装 界面 图 (6) 
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O 


(8) 取消 勾 选 Learn more about Anaconda Cloud 和 Learn more about Anaconda 
Support. fAJri & i; Finish 按钮 ,至 此 完成 了 Anaconda 的 安装 ,如 图 1-13 所 示 。 


© Anaconda 5.0.0 (64-bit) Setup es x 


Thanks for installing Anaconda3! 


` ) Anaconda is the most popular Python data science 
platform. 


ANACONDA Share your notebooks, packages, projects and 


environments on Anaconda 


Learn more about Anaconda Cloud | 


Learn more about Anaconda Support | 


à [ 


图 1-13 Anaconda3 5. 0. 0 安装 界面 图 (7) 


1.3 利器 3: Miniconda 


Miniconda 相当 于 迷你 版 的 Anaconda, 其 功能 比 Anaconda 稍微 少 一 些 。 如 果 计 
算 机 存储 空间 比较 小 的 话 , 可 以 安装 Miniconda, 而 不 必 安 装 Anaconda, 

Miniconda 官网 链接 地 址 为 : https://conda. io/miniconda. html. 如 图 1-14 所 示 。 
Miniconda 下 载 链 接地 址 为 : https://repo. continuum. io/miniconda/ ,如 图 1-15 所 示 。 


cona 


Miniconda bh 


图 1-14 Miniconda 官网 首页 界面 图 


Miniconda installer archive 
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Filename Size Last Modified MD5 

Miniconda2-4. 36.9M — 2018-06-06 23:07: 3e26ee6447c8025609eale410f768417 
Miniconda2-4. 35.5M — 2018-06-06 3  a638ae058aÜ0celbc5b289d151c488045 
Miniconda2-4. 5. 4-Linux-x86 64. sh 38.1M — 2018-06-06 22:24:38 ^ 8a1c02f6941d8778f8afad7328265cf5 
Miniconda2-4. 5. 4-MacOSX-x86 64. pkg 34.5M — 2018-06-06 27 — 6040ee82686b36f9bffa32d5f2a1341b 
Miniconda2-4. 5. 4-Mac0SX-x86 64. sh 29.8M — 2018-06-06 6 —35f4ca99d33ed56168745eeaf 1449274 
Miniconda2-4. 5. 4-Windows-x86. exe 51.8M — 2018-06-07 9 — 55502ce28ba3a162a12954522d3624d2 
Miniconda2-4. 5. 4-Windows-x86 64. exe 55.9M — 2018-06-06 :04 — d285b7451deb4a33037033307c153684 
Miniconda2-latest-Linux-ppc64le. sh 36.9M — 2018-06-06 8 ^ 3e26ee6447c8025609ea1e410£768417 
Miniconda2-latest-Linux-x86. sh 35.5M — 2018-06-06 |j — a638ae058a0ce15c5b289d151c488045 
Miniconda2-latest-Linux-x86 64. sh 38.1M — 2018-06-06 8 — Balc02f6941d8778f8afad7328265cf5 
Miniconda2-latest-MacOSX-x86 64. pkg 34.5M — 2018-06-06 7  6040ee82686b36f9bffa32d5f2a1341b 
Miniconda2-latest-MacOSX-x86 64. sh 29. 8M — 2018-06-06 6 — S5f4ca99d33ed56£68745eeaf 1449274 
Miniconda2-latest-Windows-xB6. exe 51.8M — 2018-06-07 9  55502ce28ba3al62212954522d3624d2 
Miniconda2-latest-Windows-x86 64. exe 55. 9M — 2018-06-06 23:52:04 ^ d285b7451deb4a33037033307c153684 
Miniconda3-4. 5. 4-Linux-ppc64le. sh 54.9M — 2018-06-06 23:07:24 ^ 05c1e073f262105179cf57920dfc4d43 
Miniconda3-4. 5. 4-Linux-x86. sh 53.7M — 2018-06-06 Ofcc79d640d82b7d360a39654a82dd9d 
Miniconda3-4. -Linux-x86 64. sh 55.8M — 2018-06-06 2946ea1d0c4a642ddf0c3a26a18bblód 
Miniconda3-4. 5. 4-Mac0SX-x86 64. pkg 40.2M — 2018-06-06 23:12:28 ^ 242882072fda2ada8551239e9041f5e9 
Miniconda3-4. 5. 4-Mac0SX-x86 64. sh 34.949 — 2018-06-06 164ec263c4070db642ce31bb45d68813 
Miniconda3-4. l-Windows-x86. exe 51.1M — 2018-06-07 bc2f687a9e92455a099242929df8471d 
Miniconda3~4. 5. 4-Windows-x86 64. exe 54.8M — 2018-06-06 1c73051ced99777028827 5ee6474b423 
Miniconda3-latest-Linux-ppc64le. sh 54.9M — 2018-06-06 23:07: 05c1e073f262105179cf57920dfc4d43 
Miniconda3-latest-Linux-x86. sh 53.7M — 2018-06-06 22:27:35 ^ 0fcc794640d82b7d36ea39654a82dd9d 


图 1-15 Miniconda 下 载 界 面 图 


Miniconda 的 安装 步骤 与 Anaconda 的 安装 步骤 类 似 , 可 参照 1. 2 节 中 Anaconda 
的 安装 步骤 ,这 里 不 再 袭 述 。 


1.4 利器 4: PyCharm IDE 工具 


学 过 Java、Go、Web 开发 的 ,可 能 都 知道 JetBrains 公司 ,该 公司 的 主要 产品 有 针 
对 Java 语言 开发 的 Intelli) IDEA, 针 对 Go 语言 开发 的 GoLand, 针 对 Web 开发 的 
WebStorm, 以 及 针对 Python 语言 开发 的 IDE 工具 一 一 PyCharm。 

PyCharm 是 一 款 Python IDE, 可 以 显著 提高 Python 的 开发 效率 ,比如 可 以 提高 
调试 .语法 高 亮 ,Project 管理 ,代码 跳 转 、 智 能 提示 ,单元 测试 、 版 本 控制 等 开发 速率 。 
在 编写 代码 的 过 程 中 ,PyCharm 可 快速 实现 错误 高 亮 ,智能 检测 以 及 一 键 式 代 码 快速 
补 全 建议 ,使 得 编码 更 加 优化 。 

PyCharm 官网 链接 地 址 为 : http://www. jetbrains. com/pycharm, 如 图 1-16 所 
示 。 下 载 链接 地 址 为 : http://www. jetbrains. com/pycharm/download/previous. 
html, 如 图 1-17 所 示 。 

其 具体 的 安装 步骤 , 详 见 附录 A。 
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PyCharm WatsNew Features — Docs&Demos Buy Download 


图 1-16 PyCharm 官网 首页 界面 图 


PyCharm What'sNew Features Docs&Demos Buy ( Download ) 


Previous PyCharm Releases 


Version 2018.1 More updates 
PYCHARM PROFESSIONAL PYCHARM COMMUNITY EDITION 
EDITION 
ve 181 
201811 for Linux (targz) error 20m. 
2018.11 for Linux (targz) Build: 1814445.76 
201811 for Mac OS X (dmg) Released: April 10, 2018 
2018.11 for Mac OS X (dma) 
2018: indows (exe) 
2018.11 for Windows (exe) 
Version 2017.3 More updates 
PYCHARM PROFESSIONAL, PYCHARM COMMUNITY EDITION 
EDITION acta Ric UD Cp Version: 201735 
2017355 tor Linux (targz) - E Build: 173.4674 54 


201735 for Mac OS X (dmg) Released: April 11, 2018 
201735 for Mac (dmg: 


201735 for Wind 


(exe) 


图 1-17 PyCharm 下 载 界面 图 
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1.5 利器 5: Spyder 


Spyder 是 一 个 简单 的 集成 开发 环境 ,与 PyCharm 相 比 ,具有 更 轻 量 级 的 特点 ,可 
以 快速 地 查看 代码 运行 的 结果 。Spyder 的 界面 是 由 许多 窗 格 构成 ,用 户 可 以 根据 自 
己 的 喜好 调整 它们 的 位 置 和 大 小 。 当 多 个 窗 格 出 现在 一 个 区 域 时 ,将 以 标签 页 的 形 
式 显 示 。 

Anaconda 安装 包 默 认 集成 了 Spyder, 安 装 好 Anaconda 后 ,就 可 以 在 Anaconda 
文件 夹 下 查看 到 Spyder. Spyder 的 界面 如 图 1-18 所 示 ,最 左边 是 编写 的 代码 ,在 右 
上 角 可 以 查看 定义 的 变量 ,在 右 下 角 可 以 进行 代码 输出 ,看 看 代码 的 具体 运行 


结果 。 


Jie RZD, MATIN Cre processing Data) 


t format, lambda x 1 sif 0 x) 


ae 
2 as gridepec 
+ AURI plot 


1-18 Spyder 界面 图 


1.6 利器 6: Jupyter Notebook 


Jupyter Notebook (JE iii # fk Jy [Python notebook) 是 一 个 交互 式 笔记 本 ,支持 运 
行 40 多 种 编程 语言 。 其 本 质 是 一 个 Web 应 用 程序 ,便于 创建 和 共享 程序 文档 ,支持 
实时 代码 ,数学 方程 ,可 视 化 和 Markdown. 

在 编写 Python 代码 的 过 程 中 :可 以 进行 代码 提示 和 结果 显示 。 在 机 器 学 习 中 ， 
Jupyter Notebook 常用 于 数据 清洗 、 统 计 建 模 等 。 本 书 的 代码 主要 是 在 Jupyter 
Notebook 中 进行 编写 和 展现 。 
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Anaconda 安装 包 默 认 集成 了 Jupyter Notebook, 安 装 好 Anaconda 后 ,就 可 以 查 
看 到 Jupyter Notebook。 单 击 New 按钮 ,选择 Python 3, 就 可 以 创建 一 个 后 缀 为 
.ipynb 的 Jupyter Notebook 文件 ,具体 界面 如 图 1-19 所 示 。 


Select tems to perm actos on mem usen [WIR] o 
os a > 
C) AnacondaProrects € p 
O Apposta Tea Fie p 

© O contacts Feuer LJ 
© Desktop. Tenet tanc p 
© Docuners me 
口 oomesm ‘ons ago 

8 Creve ‘ments ago 
On monta x 
D uw m 

O wen 4 months ago 

8 Orewes 2 monte a90 
8 © Ser Gunes mont a90 
© senne 6 moni ag0 

© vaeos S months ago 


图 1-19 创建 Jupyter Notebook 文件 界面 图 


双击 Untitled, 可 以 修改 文件 名 称 , 本 例 中 修改 为 test, 输 入 以 下 代码 之 后 , 按 住 
Shift 十 Enter 键 ,就 可 以 快速 地 查看 输出 结果 并 跳 转 到 下 一 行 ,如 图 1-20 所 示 。 


import numpy as np 
import pandas as pd 
TF2 
3*5 
IC Jupyter test Last checkpoint 01/19/2018 (unsaved changes) on 
Fle Eat Vew set Cel Kemet vages Hep Twsted 4 |pmonao 
Box BB co "m 
1n [1]: [Eport mapy as mp 
1n [2]: [inport pandas as np 
tm ts): 102 
oun): s 
1o [i]: [265 
oui: 15 


] 
[re 


1-20 Jupyter Notebook 具体 操作 界面 图 
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1.7 小 结 


本 章 主要 介绍 了 在 Python 实际 开发 过 程 中 ,常用 的 编辑 器 .IDE 开发 工具 的 安 
装 和 简介 。 关 于 Linux 和 MacOS 系统 上 相关 软件 的 安装 过 程 ,读者 可 以 上 网 搜索 相 
关 的 教程 。 


第 sx 
-L 


Python 数据 类 型 用 法 讲解 


2.1 变量 


在 数学 中 ,我 们 都 学 过 二 元 一 次 方程 组 ,比如 : 假设 z,y 满足 方程 + 十 y= 二 3， 
zz 一 y 一 1, 求 和 >y 的 值 。 这 里 求 出 的 结果 是 z 一 2.y 一 1。 实 际 上 , 求 出 的 zx 和 > 就 
是 变量 ,只 不 过 在 Python 中 ,很 少 用 zx,y 来 表示 一 个 数值 型 变量 ,大 部 分 都 使 用 i,j， 
& 来 表示 数值 型 变量 。 

先 以 z 一 2 为 例 ,z 就 是 一 个 变量 ,这 个 变量 存储 了 一 个 数值 为 2 的 值 , 这 个 2 就 
是 与 变量 相关 的 信息 。 通 过 等 号 “一 ”, 式 中 的 2 被 赋值 给 了 变量 z, 即 变量 x 保存 了 
2 在 内 存 中 的 地 址 。 同 理 , 例 如 msg= 'hello world! ' 3X HAY msg 就 是 一 个 变量 。 通 过 
等 号 “二 ”, 'hello world! ' 被 赋值 给 了 msg. Bl msg 保存 了 'hello world! ' 在 内 存 中 的 地 址 。 

在 使 用 变量 时 ,良好 的 命名 规范 能 让 代码 更 容易 阅读 和 理解 ,方便 与 项 目 组 的 其 
他 成 员 进行 交流 。 

以 下 是 需要 注意 的 有 关 变 量 的 规则 。 

CD 变量 名 只 能 包含 字母 .数字 和 下 面 线 。 变 量 名 可 以 字母 或 下 面 线 开头 ,但 不 


能 以 数字 开头 。 例 如 ,可 将 变量 命名 为 message 1. 


但 不 能 将 其 命名 为 1_ message。 


(2) 变量 名 不 能 包含 空格 ,但 可 使 用 下 夯 线 来 
分 隔 其 中 的 单词 。 例 如 ,变量 名 greeting message 


可 行 ,但 变量 名 greeting message 会 引发 错误 。 


(3) 不 要 使 用 Python 关键 字 和 函数 名 用 作 变 
量 名 ,Python 内 置 的 33 个 关键 字 如 表 2-1 所 示 ,要 
想 查 看 Python 的 关键 字 , 可 以 输入 import 
keyword, 然 后 再 输入 keyword. kwlist 即 可 看 到 


Python 内 置 的 33 个 关键 字 , 如 图 2-1 所 示 。 


(4) 变量 名 应 该 简短 ,并 且 让 程序 员 能 够 见 名 
知 意 。 例 如 ,age 比 a 好 ,stu_name HE s n 好 等 。 
(5) 慎 用 小 写字 母 1 和 大 写字 母 0, 因 为 它们 
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In [1]: 


Out[1]: 


import keyword 
keyword. kwlist 


[ False’, 
’ None’, 
"True", 
'and', 
as’, 
assert’, 
"break, 
'class', 
' continue’, 
'def', 
'del', 
elif’, 
else’, 
except’, 
’ finally’, 
’ for’, 
’ from’, 
’ global’, 


图 2-1 Python 内 置 的 33 个 


关键 字 列表 
可 能 被 人 错 看 成 数字 1 和 0。 
表 2-1 Python 内 置 的 33 个 关键 字 
False None True and as assert break 
class continue def del elif else except 
finally for from global if import in 
is lambda nonlocal not or pass raise 
return try while with yield 


要 创建 良好 的 变量 名 ,需要 经 过 一 定 的 实践 ,在 阅读 源码 的 时 候 , 可 以 学 学 源码 


的 变量 是 怎么 命名 的 ,从 而 提高 自己 的 编码 能 力 。 


2.2 字符 串 


在 Python 中 ,可 以 使 用 单 引号 ”或 者 双 引号 "来 创建 字符 串 。 在 创建 字符 串 


时 ,只 要 为 变量 分 配 一 个 值 即 可 。 例 如 : 


Btrl = 
str2 = "hello python!" 


"hello world!" 
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同时 , 单 引号 “? 和 双 引 号 “” 也 可 以 结合 使 用 , 即 可 以 在 字符 串 中 包含 引号 和 撤 
号 。 例 如 : 


'I told my friend, "Python is my favorite language! "' 
"One of Python's strengths is its diverse and supportive community." 


那么 ,了 解 字符 串 的 定义 之 后 ,该 如 何 对 字符 串 进行 操作 呢 ? 此 时 就 需要 先知 道 
字符 串 的 下 标 和 切片 。 

所 谓 的 下 标 , 可 以 理解 为 编号 ,就 好 比 超市 存储 柜 的 编号 ,学生 名 单 表 中 的 学 号 ， 
通过 这 个 编号 或 者 学 号 就 能 找到 相应 的 存储 空间 或 者 学 生 信息 。 需 要 注意 的 是 ,在 
Python 中 ,下 标 是 从 0 开始 的 ,不 是 从 1 开始 的 。 

字符 串 实 际 上 就 是 字符 的 数组 ,所 以 支持 下 标 索引 。 如 : msg 一 "吃饭 了 吗 ?"， 
msg[0 ] — "I" .msg[ 1]— "i", EX HE. E DLE , name= 'hello', 则 name[0]— 'h'. 
name[1]— 'e'. UX HE. 

切片 是 指 对 操作 的 对 象 截取 其 中 一 部 分 的 操作 。 字 符 串 、. 列 表 、 元 组 都 支持 切片 
操作 。 切 片 语法 : [起 始 : 结束 : 步 长 ]。 选 取 的 区 间 属 于 左 闭 布 开 型 , 即 从 * 起 始 ” 位 
开始 ,到 “结束 ”位 的 前 一 位 结束 (不 包含 结束 位 本 身 )。 对 应 到 数学 中 ,就 是 前 闭 后 开 
型 区 间 , 也 可 以 理解 为 start «— i < end, 

例如 : name 王 "hello', 则 切片 的 常见 操作 如 表 2-2 所 示 。 


表 2-2 切片 的 常见 操作 示例 


字符 串 切片 语法 ae X 
name[0; 3] = 'hel' 取 下 标 0 一 2 的 字符 
name[0: 5] — 'hello' 取 下 标 0 一 4 的 字符 
name[3: 5] = 'lo' 取 下 标 3.4 的 字符 
name[2; ] = 'llo' 取 下 标 为 2 开始 到 最 后 的 字符 
name[1; —1] = "ell' 取 下 标 为 1 开始 到 倒数 第 2 个 之 间 的 字符 
name[ : : 2] = 'hlo' 从 下 标 0 开始 到 最 后 字符 ,每 隔 2 个 位 置 , 取 出 字符 
name[5: 1: 一 2] — 'ol' 从 下 标 5 开始 ,到 下 标 2 逆序 ,每 隔 2 个 位 置 ,取出 字符 


在 实际 操作 过 程 中 ,如 果 不 知道 某 些 函数 的 具体 用 法 , 则 可 以 使 用 help 命令 来 
进行 提示 和 理解 。 比 如 , 想 知道 字符 串 str 的 简介 ,那么 可 以 在 Jupyter Notebook 中 ， 
输入 help(str) 命 令 , 就 可 以 看 到 与 字符 串 有 关 的 介绍 ; 输入 dir(str) 命 令 , 则 会 显示 
出 字符 串 所 有 的 私有 方法 和 公有 方法 (在 Python 中 ,以 两 个 下 面 线 开头 的 方法 就 默 
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认为 私有 方法 ) 。 对 于 字符 串 中 的 某 一 特定 方法 ,比如 find 的 用 法 ,可 以 输入 help 
(str. find) 命 令 ,就 可 以 看 到 find 方法 的 具体 介绍 和 用 法 ,包括 函数 的 传人 参数 以 及 
函数 返回 值 , 如 图 2-2、 图 2-3 和 图 2-4 所 示 。 


In [2]: help(str) 


Help on class str in module builtins: 


class str(object) 
str(object-'') -> str 
str(bytes or buffer[, encoding[, errors]]) — str 


Create a new string object from the given object. If encoding or 
errors is specified, then the object must expose a data buffer 
that will be decoded using the given encoding and error handler. 
Otherwise, returns the result of object. str () (if defined) 
or repr(object). 

encoding defaults to sys. getdefaultencoding(). 

errors defaults to 'strict'. 


Methods defined here: 


— add (self, value, /) 
Return self+value. 


图 2-2 help(str) 的 用 法 


In [3]: dir(str) 


Out[3]: [P add ', 

. class ', 

. contains ', 
. delattr ', 


de 7, 


—eL^, 

ee, 
—getattribute ', 
—getitem ^, 

. getnewargs ', 
gk I. 
hash ', 

In 5 

. init subclass ', 
—JAter *, 

—le ', 

.Jem " 

M | Es 


. mod ', 


, 
, 


图 2-3 dir(str) 的 用 法 


下 面 介 绍 字符 串 的 常用 操作 。 
字符 处 理 类 函数 及 用 法 如 表 2-3 所 示 。 
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In [4]: | help(str. find) 


Help on method descriptor: 


find(...) 
S.find(sub[, start[, end]]) -> int 


Return the lowest index in S where substring sub is found, 
such that sub is contained within S[start:end]. Optional 
arguments start and end are interpreted as in slice notation. 
Return -1 on failure. 

图 2-4 help(str. find) A JH iX 

表 2-3 字符 处 理 类 函数 及 用 法 


函数 名 及 含义 H F 


>>> strl = 'HELLO world 123' 
>>> strl. upper) 
'HELLO WORLD 123' 


str. upper() 


将 所 有 小 写字 母 变 为 大 写 (只 对 字母 起 作用 ) 


>>> strl = 'HELLO world 123" 
>>> strl.lower() 
‘hello world 123* 


str. lower() 


将 所 有 大 写字 母 变 为 小 写 ( 只 对 字母 起 作用 ) 


>>> strl = 'HELLO world 123* 
>>> strl. swapcase() 
‘hello WORLD 123' 


str. swapcase() 


所 有 大 小 写字 母 互 换 


>>> strl = 'HELLO world 123* 
>>> strl. capitalize() 

"Hello world 123' 

>>> str2 = '3HELLO world" 


str. capitalize() 


首 字 母 大 写 ,其 余 字母 小 写 ( 要 保证 字符 串 的 


BR >>> str2. capitalize() 
"3hello world' 
>>> strl = 'HELLO world 123* 
>>> strl. title) 

str. title "Hello World 123' 

字符 串 的 每 个 单词 首 字母 大 写 >>> str2 = '123hello world’ 


>>> str2. capitalize 
'123Hello World’ 


字符 串 搜索 相关 类 函数 及 用 法 如 表 2-4 所 示 。 
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表 2-4 字符 串 搜索 相关 类 函数 及 用 法 


函数 名 及 含义 B F 
>>> strl = 'HELLO world 123' 
str. find substr. start. end) os ae 
KO GAB str 是 否 包 含 子 字符 申 substr。 如 果 "n" strl. find wo") 
包含 ,返回 子 字符 串 substr 开始 的 位 置 索引 值 ， . 
>>> strl. find('wo', 10) 
否则 返回 一 1 2 
str. rfind(substr,start, end) >>>strl = 'HELLO world 123' 
类 似 于 find() 函数 ,不 过 是 从 右边 开始 查 | >>> strl. rfind('L') 
找 substr 3 
>>> strl = 'HELLO world 123" 
str. index(substr, start. end) >>> strl. index('wo') 
与 find() 方 法 一 样 ,如 果 substr 不 在 字符 串 中 则 | 6 
会 报 异常 >>> strl. index('wo',10) 


ValueError; substring not found 


str. rindex(substr, start, end) 


类 似 于 index() ,不 过 是 从 右边 开始 查找 substr 


3 


>>> strl = 'HELLO world 123" 
>>> strl. rindex('L') 


>>> strl. rindex('h') 


ValueError; substring not found 


str. count(substr,start,end) 


计算 子 字符 串 substr 在 字符 串 str 中 出 现 的 次 数 


2 


0 


字符 串 判断 类 函数 及 用 法 如 表 2-5 所 示 。 


R25 字符 串 判断 类 函数 及 用 法 


>>> strl = 'HELLO world 123" 
>>> strl. count('L') 


>>> strl. count('z') 


函数 名 及 含义 


Ho F 


str. startswith( substr) 


>>> strl 
>>>strl. 


= 'HELLO world 123' 
startswith( 'HE') 


检查 字符 串 是 否 是 以 substr 开头 ,是 则 返回 | True 
True, 否 则 返回 False >>> strl. startswith(‘he') 
False 
>>> strl = 'HELLO world 123* 
str. endswith(substr) >>> strl. endswith( '123') 
检查 字符 串 是 否 以 substr 结束 ,如 果 是 返回 | True 
True, 和 否则 返回 False >>> strl. endswith( 456 ') 


False 
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续 表 
函数 名 及 含义 例 OF 
>>> strl — 'HELLO world 123' 
>>> strl. isupper() 
str. isupper() Riss 
pig iin heh oe >>> str2 = "HELLO WORLD 123' 
>>> str2. isupper() 
True 
str. islower() >>> strl = ‘hello world 123' 
检查 字符 串 里 的 字母 是 否 都 是 小 写字 母 ( 注 | >>> strl. islowerO 
意 : 只 检查 字母 ,不 检查 空格 ,数字 等 ) True 
>>> strl = 'HELLOworld' 
str. isalpha() >>> strl. isalpha() 
检查 字符 串 是 否 全 由 字母 组 成 ,如 果 是 返回 | True 
True, 否 则 返回 False。( 注 意 字符 串 中 是 否 含 | >>> str2 = 'HELLO world’ 
有 空格 ) >>> str2. isalpha() 
False 
>>> strl = '123' 
>>> strl. isdigitO 
True 
str. isdigitQ) >>> str2 = '12 3' 
检查 字符 串 是 否 全 由 数字 组 成 ,如 果 是 返回 | >>> str2. isdigitO 
True, 否 则 返回 False. False 
>>> str3 = 123!" 
>>> str3. isdigit() 
False 
>>> strl = 'hello123' 
>>> strl. isalnum() 
True 
F >>> str2 = ‘hello 123' 
str. isalnum() yi N 
检查 字符 串 是 否 全 为 字母 或 数字 >>> str2. isalnum() 
False 
>>> str3 = 'hello123!' 
>>> str3.isalnum () 


False 


| $2: “Python 数据 类 型 


法 讲解 ©) 


续 表 
函数 名 及 含义 例 F 
Sst >= ™ 
>>> strl. isspaceO 
False 
str. isspace() >>>str2 = '' 
检查 字符 串 中 是 否 只 包含 空格 ,如 果 是 则 返回 | >>> str2. isspaceO 
True 否则 返回 False True 
>>> str3 = ' 
>>> str3. isspace() 
True 
字符 串 格式 化 类 函数 及 用 法 如 表 2-6 所 示 。 
R26 字符 串 格式 化 类 函数 及 用 法 
函数 名 及 含义 "oT 
str. ljustCwidth) >>> strl = ‘hello’ 
返回 一 个 原 字符 串 左 对 齐 ,并 使 用 空格 填充 至 | >>> strl. ljust(10) 
长 度 为 width 的 新 字符 串 ‘hello “(此 处 有 5 个 空格 ) 


str. rjust(width) 
返回 一 个 原 字符 串 右 对 齐 , 并 使 用 空格 填充 至 
长 度 为 width 的 新 字符 串 


>>> strl = 'hello123* 
>>> strl. rjust(10) 
hello123'( 此 处 有 两 个 空格 ) 


str. center C width) 

返回 一 个 原 字符 串 居中 ,并 使 用 空格 填充 至 长 
度 为 width 的 新 字符 串 ( 当 字 符 串 不 可 能 居中 
对 齐 时 ,左边 的 空格 会 比 右边 的 少 一 个 ) 


>>> strl = 'hello' 

>>> strl. center(7) 

‘hello “(左右 两 边 各 一 个 空格 ) 

>>> strl. center(8) 

‘hello “(左边 一 个 空格 ,右边 两 个 空格 ) 


字符 串 其 他 类 函数 及 用 法 如 表 2-7 所 示 。 


R27 字符 串 其 他 类 函数 及 用 法 


函数 名 及 含义 


例 子 


replace(strl, str2, count) 
JH str2 替换 掉 strl ,如果 count 指定 , 则 替换 不 
超过 count 次 


>>> name — 'hello world world' 

>>> name. replace('world'. 'Python') 
"hello Python Python ' 

>>> name. replace 'world', 'Python', 1) 
"hello Python world" 
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续 表 


函数 名 及 含义 


例 F 


split(str='', maxsplit) 
以 str 为 分 隔 符 切片 字符 串 , 如 果 maxsplit 有 
指定 值 , 则 仅 分 隔 maxsplit 个 子 字符 串 


>>> name = 'hello world Python Go' 
>>> name. split(' ') 
['hello', 'world', 'Python', 'Go'] 


>>> name. split(' ', 2) 
['hello'. 'world', 'Python Go'] 


3 >>> mystr = \n\t hello \t\n' 

strip() i 

删除 字符 串 两 端的 空白 字符 >>> mystr. strip() 
'hello* 
>>> mystr = ' hello’ 
>>> mystr. lstrip() 

IstripO ‘hello’ 

删除 字符 串 左边 的 空白 字符 >>>mystr=' helo — ' 
>>> mystr. IstripO 
hello 3 

k >>> mystr = ' hello i 
Tstrip() MEM : 
删除 字符 申 末尾 的 空白 字符 >>> mystr. rstrip() 


$ hello* 


partition( str) 
把 字符 串 以 str 分 割 成 三 部 分 ,str 前 .str 和 str 
后 ,并 保留 str, 返 回 的 是 一 个 元 组 tuple 


>>> mystr — 'hello world Python and Go* 
>>> mystr. partition( 'Python') 
C'hello world ', 'Python', ' and Go? 


rpartition(str) 


类 似 于 partition() 函 数 ,不 过 是 从 右边 开始 


>>> mystr = ‘hello world Python and Go' 
>>> mystr. rpartition( 'and') 
C hello world Python ', 'and'. 'Go') 


splitlines() 
按照 行 分 割 ,返回 一 个 包含 各 行 作为 元 素 的 
列表 


>>> mystr = ‘hello\nworld' 
>>> print(mystr) 

hello 

world 

>>> mystr. splitlinesC) 


C'hello’, 'world'] 


join(str) 
字符 串 中 每 个 字符 后 面 插入 str, 构 造 出 一 个 新 
的 字符 串 


Zor a= Ur 

>>> li = ['my'. ‘name’, 'is', 'Python'] 
>>> str. join(li) 

'my name is Python" 

IS: 

>>> str. join(li) 


"my. name is Python* 
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看 完 上 述 字 符 串 常用 操作 后 ,可 以 试 着 理解 一 下 这 些 函 数 的 可 能 实现 方法 。 比 
如 : 判断 一 个 字符 串 是 否 是 以 字母 “a” 开 头 , 或 者 是 否 以 字母 “c" 结 束 。 首 先 可 能 会 想 
到 使 用 startswith( 或 者 endswith) 函 数 ,但 对 于 一 名 初学 者 来 说 ,如 果 只 接触 过 基本 
的 下 标 或 者 切片 ,能 不 能 实现 该 函数 的 功能 呢 ? 

以 “a” 开 头 , 取 下 标 为 0 的 字符 ,与 字母 “a” 进 行 比较 ,如 果 相 等 , 则 返回 True, A 
则 返回 False。 同 理 ,取出 字符 串 的 最 后 一 个 字符 ,与 字母 “ce” 进 行 比较 ,如 果 相 等 则 
返回 True, 如 果 不 相等 则 返回 False. 

但 是 在 实际 开发 过 程 中 ,可 能 要 考虑 更 多 的 情况 。 假 设 传 进来 的 参数 不 是 一 个 
字符 串 ,该 怎样 处 理 ?” 如 果 是 字符 串 ,会 不 会 是 空 字 符 串 呢 ? 字符 串 的 长 度 是 否 大 于 
要 比较 的 字符 串 的 长 度 等 情况 ,都 需要 考虑 到 。 

下 面 简 单 写 一 个 判断 字符 串 是 不 是 以 某 一 特定 字符 串 开头 的 函数 (默认 传 进来 
的 参数 都 是 字符 串 类 型 )。 如 果 是 , 则 返回 True; 否则 返回 False。 其 代码 运行 结 
如 图 2-5 所 示 。 


def startswith prefix(mystr, prefix): 
if len(mystr) >= len(prefix) and int(mystr[ :len(prefix)] == prefix): 
return True 
else: 
return False 


In [5]: def startswith prefix(mystr, prefix): 
if len(mystr) >= len(prefix) and int(mystr[:len(prefix)] — prefix): 
return True 
else: 
return False 


In [6]: startswith prefix( python’, ’ py’) 

Out [6]: True 

In [7]: | startswith prefix( python’ ,’ go’) 

Out[7]: False 

图 2-5 startswith prefix 函数 运行 结果 
希望 读者 在 学 习 字符 串 的 常用 操作 时 ,多 思考 哪些 基本 的 操作 能 够 组 合 起 来 ,从 

而 实现 一 个 内 置 函 数 的 用 法 。 也 和 希望 读者 在 面 对 一 个 项 目 问题 时 ,能 够 快速 地 想到 
一 些 内 置 函 数 , 以 提高 自己 的 代码 质量 ,从 而 减轻 自己 的 测试 负担 。 
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2.3 列表 list 


列表 list 是 一 种 有 序 的 集合 ,可 以 随时 添加 和 删除 其 中 的 元 素 ,其 长 度 是 可 变 
的 。 在 Python 中 ,使 用 中 括号 [ ] 来 表示 一 个 列表 ,列表 中 的 元 素 可 以 是 int 型 、 
string 型 ,也 可 以 是 int 和 string 的 混合 型 。 比 如 , 列 出 班级 里 所 有 学 生 的 名 字 , 就 可 
以 用 一 个 list 表示 : 


classmates = [" 张 三 "，" 李 四 "，" 王 五 "] 


变量 classmates 就 是 一 个 列表 ,可 以 使 用 下 标 访问 列表 元 素 的 值 ,也 可 以 修改 列 
表 的 值 。 其 中 ,classmates[0] 的 输出 结果 就 是 " 张 三 "。 

使 用 len() 函 数 可 以 获得 list 元 素 的 个 数 : len(classmates) 的 输出 结果 为 3。 注 
意 ,列表 中 的 元 素 是 可 以 重复 的 ,并 且 列 表 list 的 索引 是 从 0 开始 的 。 当 访问 的 索引 
值 超出 列表 长 度 时 ,就 会 报错 ,提示 IndexError: list index out of range。 所 以 要 确保 
索引 不 要 越界 ,并 且 列 表 的 最 后 一 个 元 素 的 索引 是 len(classmates)-1. 

下 面 介绍 列表 的 常见 操作 。 


2.3.1 增 Cappend insert ,extend) 


列表 list 是 一 个 长 度 可 变 的 有 序 表 , 可 往 list 中 动态 地 添加 元 素 。 有 两 种 追加 方 
法 ,一 种 是 在 列表 的 末尾 添加 元 素 , 另 一 种 是 在 列表 的 指定 位 置 添加 元 素 。 

例如 : 假设 编程 语言 列表 language 王 ["python"，"go"，"java"] ,现在 想 把 C i 
言 和 PHP 添加 到 编程 语言 列表 的 末尾 ,使 用 append 或 者 extend. 

当 通 过 append 方法 向 列表 中 添加 新 元 素 时 ,新 元 素 的 数据 格式 不 会 发 生 改 变 。 
但 当 使 用 extend 方法 向 列表 中 添加 新 元 素 时 ,如 果 新 元 素 也 是 一 个 列表 , 则 会 循环 
遍历 该 列表 中 的 元 素 ,将 其 添加 到 原始 列表 中 。 具 体 用 法 和 不 同 之 处 ,如 图 2-6 
所 示 。 

insert 方法 是 在 指定 的 索引 位 置 处 ,直接 插入 新 元 素 , 并 且 保 持 新 元 素 的 格式 不 
变 。 具体 用 法 如 图 2-7 所 示 。 


In [8]: 


Ovt[8] : 


In [9]: 


Out[9]: 


In [10]: 


Out [10] 


In [11]: 


Out [11]: 


In [12]: 


Out [12]: 


| 第 2 章 。 Python 数据 类 型 


language = [“python”, “go”, "java"] 
language. append (c^) 

language. append (“php”) 

language 

'python', 'go', ’ java’, 'c', '"php'] 
language = [“python”, “go”, “java”] 
language. append([^c", "php^]) 
language 

’ python’, 'go', ' java’, lc, 'php'1] 
language = [“python”, “go”, “java”] 
language. extend([^c^, “php”]) 
language 

’ python’, ’ go’, ’ java’, 'c', ’ php’ 


图 2-6 append 和 extend 用 法 示例 


language = [“python”, “go”, "java" 
language. insert(1, ^c^) 

language 

l python’, 'c', 'go', ' java’] 
language = [“python”, “go”, “java” 
language. insert (1, ["c^, "php^]) 
language 

l python’, [’c’, 'php'], 'go', ' java’ ] 


图 2-7 insert 用 法 示例 


2.3.2 删 (pop remove del) 


列表 中 常用 的 删除 方法 有 3 种 : 第 一 种 是 从 列表 末尾 删除 元 素 ,可 使 用 pop() 方 
法 ; 第 二 种 是 删除 指定 索引 位 置 的 元 素 , 可 使 用 pop() ,也 可 使 用 dels 第 三 种 是 删除 
列表 中 特定 元 素 的 值 ,可 使 用 remove() 方 法 ,如 果 列 表 中 该 元 素 值 有 多 个 , 则 删除 第 
一 个 匹配 的 值 , 其 他 的 不 会 删除 。 具 体 的 用 法 如 图 2-8 所 示 。 


2.3.3 BE 


对 于 列表 中 的 元 素 改写 , 先 要 找 出 元 素 的 索引 位 置 ,然后 再 使 用 等 号 “二 ”进行 赋 
值 ,就 可 以 改写 列表 中 的 元 素 值 。 具 体 示例 如 图 2-9 所 示 。 
所 谓 的 查找 ,实际 上 就 是 判断 某 一 特定 的 元 素 是 否 存在 于 列表 中 。 常 用 的 查找 
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In [13]: language = [“python”, “go”, “java”, “c”] 
language. pop () 
language 


Out [13]: ['python', ’ go’, 'java'] 


In [14]: language = ["python", “go, “java”, ^c"] 
language. pop (1) 
language 

Out[14]: ['python', 'java', 'c'] 

In [15]: | language = [“python”, “go”, "java", “c"] 
del language[1] 
language 

Out[15]: ['python', 'java', 'c'] 

In [16]: | language = ["python", "go", “java”, ^c", “go”] 
language. remove (^ go") 
language 

Out[16]: ['python', * java’, 'c', "go'] 

In [17]: language = ["python", “go”, "java, "c", “go”] 
language. remove (^ java”) 
language 


Out[17]: [' python’, 'go', 'c', 'go'] 


图 2-8 popO ,removeO ,del 用 法 示例 


In [18]: | language = [“python”, “go”, “java”, ^c"] 
language[1] = “php” 
language 
Out[18]: ['python', 'php', ’ java’, 'c'] 
图 2-9 列表 的 改 操 作 示例 
方法 有 : in ,not in index 和 count。 具 体 用 法 如 表 2-8 所 示 。 


表 2-8 列表 的 查 操作 用 法 示例 


方法 名 及 含义 例 Ea 
>>> language—[ "python". "go", "java", "c"] 
in "c" in language 
判断 元 素 是 否 存在 于 列表 中 ,存在 则 返回 | True 
True, 不 存在 则 返回 False >>>"php" in language 
False 


>>> language—[ "python". "go". "java". "c"] 


not in >>>"c" not in language 
判断 元 素 是 否 不 存在 于 列表 中 ,不 存在 则 返 | False 
回 True, 存 在 则 返回 False >>>"php" not in language 


True 
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续 表 
方法 名 及 含义 例 F 

: >>> language— [" python", "go", "java". "c"] 
Eum >>> language. index("c") 
与 字符 串 的 index 用 法 相同 ,判断 元 素 是 否 | ES 
存在 于 列表 中 ,存在 则 返回 该 元 素 在 列表 中 na indes E A 
的 索引 位 置 ,不 存在 则 直接 报错 ee 

ValueError; 'c'is not in list 

>>> language—[ "python", "go", "java", "c", "go"] 


count 
判断 元 素 在 列表 中 出 现 的 次 数 ,存在 则 返回 
次 数 , 不 存在 则 返回 0 


>>> language. count("go") 
2 

>>> language. count(" php") 
0 


列表 中 的 查询 ,直接 使 用 索引 即 可 访问 该 元 素 。 要 确保 索引 不 要 越界 ,并 且 列表 
的 最 后 一 个 元 素 的 索引 是 列表 长 度 减 去 1 。 


1. 使 用 索引 查询 元 素 


如 果 要 取 最 后 一 个 元 素 ,除了 计算 索引 位 置 外 ,还 可 以 用 一 1 做 索引 ,直接 获取 
最 后 一 个 元 素 , 以 此 类 推 , 可 以 获取 倒数 第 2 个 、 倒 数 第 3 个 。 具 体操 作 如 图 2-10 


所 示 。 

In [19 language = 
language[1 

Out[19]: "go" 

In [20]: language = 
language[-1 

Out[20]: 'c 

In [21]: | language = 
language[-2 

Out[21]: 'java' 

In [22 language = 
language [— 

Out [22]: ’ go’ 


“python”, "go", 


"python", “go”, 


“python”, “go”, 
2 


= ["python*, “go”, 


"java", "c'] 


“java”, "c"] 


"java", "c^] 


“java”, "c 


PA 2-10 使 用 索引 查询 列表 元 素 


注意 ,列表 list 中 的 元 素 , 可 以 是 一 


字典 之 后 ,列表 的 元 素 也 可 以 是 字典 。 


个 列表 ,这 就 是 所 谓 的 列表 嵌 套 。 
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>>> language = [ "python", "go", ["php", "scala"], "java", "c"] 
>>> len(language) 
5 


要 注意 language 只 有 5 个 元 素 , 其 中 language[2] 又 是 一 个 list, 如 果 拆 开 写 就 更 
容易 理解 了 。 因 此 ,上 述 代码 可 改写 为 : 

p = ["php", "scala"] 

language- ["python", "go", p, "java", "c"] 

要 想 取得 "php" ,可 以 写 pL0] 或 者 language[2][0], 因 此 language 可 以 看 成 是 一 
个 二 维 数组 ,类似 的 还 有 三 维 . 四 维 等 数组 ,但 在 实际 开发 过 程 中 ,很 少 会 用 到 三 维 及 
以 上 的 数组 。 


2. 使 用 切片 访问 列表 


这 一 点 与 字符 串 的 访问 相 类 似 。 其 切片 语法 为 : [起 始 : 结束 : 步 长 ]。 选 取 的 
区 间 属 于 左 闭 右 开 型 区 间 , 即 从 “起 始 ” 位 开始 ,到 “结束 ”位 的 前 一 位 结束 (不 包含 结 
束 位 本 身 )。 对 应 到 数学 中 ,就 是 前 闭 后 开 型 区 间 , 也 可 以 理解 为 start «—i < end, 
"，"scala"，"java"，"c"], 则 切片 访问 


例如 : language 一 ["python"，"go"，"php 
列表 的 示例 如 表 2-9 所 示 。 


表 2-9 切片 访问 列表 的 示例 


列表 切片 语法 EI x 
language[ 0; 3]=['python', 'go'. 'php'] 取 下 标 0 一 2 的 元 素 
language[0: 5]=['python', 'go'. 'php'. ‘scala’, 'java'] 取 下 标 0 一 4 的 元 素 
language[3: 5]=['scala', 'java'] 取 下 标 3.4 的 元 素 
language[2: J=['php', ‘scala’, 'java', 'c'] 取 下 标 为 2 开始 到 最 后 的 元 素 
x 个 
language[1: —1]=['go', 'php'. 'scala'. 'java'] ENS LEON IUOS TM 
的 元 素 

T m 从 下 标 0 开始 到 最 后 字符 ,每 隔 2 个 

language[ : : 2]—['python'. ‘php’. java'] 位 置 取出 元 素 


从 下 标 5 开始 ,到 下 标 2 逆序 ,每 隔 2 
个 位 置 取出 元 素 


language[ 5: 1: —2]=['c', 'scala'] 
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2.3.4 列表 的 循环 遍历 


如 果 要 查看 列表 的 所 有 元 素 , 则 需要 对 列表 进行 循环 遍历 。 以 下 是 两 种 常见 的 
循环 语句 写法 。 
(1) 使 用 for 循环 


languages = ["python", "go", "php", "scala", "java", "c"] 
for language in languages: 
print(language) 


(2) 使 用 while 循环 


languages = ["python", "go", "php", "scala", "java", "c"] 


length - len( pesi. 


i=0 

while i < length: 
print(languages[i]) 
it=1 


2.3.5 排序 (sort,reverse) 


sort 方法 是 将 list 按 特定 顺序 重新 排列 ,排序 方式 默认 为 由 小 到 大 ,参数 reverse= 
True ,可 改 为 倒序 ,由 大 到 小 排序 
reverse 方法 可 以 直接 将 list 中 所 有 的 元 素 进行 逆 置 。 


a = [1, 4, 2, 3] 

>>> a. reverse( ) 

>>a 

| 

>>>a. sort( ) 

>>>a 

[ly 2 37 0] 

>>>a. sort(reverse = True) 
>>>a 

[47,3502 M11] 


2.3.6 列表 的 其 他 操作 符 


列表 对 十 和 XX 的 操作 符 与 字符 串 相 似 ,也 可 以 进行 成 员 检 查 。 十 号 用 于 组 合 列 
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表 ,X 号 用 于 重复 列表 。 其 具体 用 法 如 表 2-10 所 示 。 


表 2-10 十 .X 操 作 示 例 


KER 输出 结果 i 3x 
[1,2,3] 十 [4,5,6] [1,2,3,4,5,6] 将 列表 拼接 组 合 起 来 
[*python"] X 3 [*python", “python”, *python"] | 重复 
1 in [1,2,3] True 判断 元 素 是 否 存在 于 列表 中 
torida 15258]; nom ut 

print(i) 
2.4 集合 set 


在 学 数学 的 时 候 ,都 会 学 习 到 集合 的 概念 。 在 数学 中 ,集合 实际 上 就 是 “确定 的 
一 堆 东 西 "。 集 合 里 的 “东西 ”, 叫 作 元 素 。 由 一 个 或 多 个 确定 的 元 素 所 构成 的 整体 叫 
WHEE. Hx 是 集合 A 的 元 素 , 则 记 作 EA, 

集合 中 的 元 素 有 3 个 特征 。 

CD 确定 性 (集合 中 的 元 素 必须 是 确定 的 )。 

(2) 互 异性 (集合 中 的 元 素 互 不 相同 )。 例 如 : 集合 A={1,a), 则 a 不 能 等 于 1. 

(3) 无 序 性 (集合 中 的 元 素 没有 先后 之 分 ) ,如 集合 {3, 4, 5} 和 {3, 5, 4} 算 作 同 
一 个 集合 。 

在 Python 中 ,集合 也 是 类 似 的 ,用 setQ 〇 表示 ,也 可 以 使 用 大 括号 { } 来 表示 集合 ， 
其 中 的 元 素 也 是 无 顺序 的 。 由 于 在 实际 编写 代码 的 过 程 中 ,集合 的 用 处 比较 少 , 下 面 
简单 介绍 集合 的 常见 用 法 。 

【注意 】 

由 于 集合 具有 互 异 性 (集合 中 的 元 素 互 不 相同 ), 因 此 可 以 对 一 个 有 重复 元 素 的 
列表 ,添加 上 set() 之 后 ,就 会 将 重复 的 元 素 隐 藏 。 


2.4.1 创建 集合 


创建 集合 时 ,使 用 set() 即 可 。 如 var = set([1, 3. 5, 6, 4. 2D ,如 图 2-11 
所 示 。 
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In [23]: var = set ([1,3,5,6, 4,2]) 
var 


Out[23]: { 2, 3, 4, 5, 6} 


In [24]: for i in var: 
print (i) 


ooeum- 


图 2-11 创建 集合 示例 
由 图 2-11 可 以 看 出 ,集合 内 部 实际 上 已 经 对 元 素 进 行 了 排序 。 那 么 ,集合 中 能 
不 能 包含 不 同类 型 的 元 素 呢 ? 具体 如 图 2-12, Fd 2-13 和 图 2-14 所 示 。 


var 


OQut[25]: (1, 2, 3, 'f', 5, 6, 4, ’a’, "b', 'c', 'd') 


In (26): for i in var: 
print (i) 


anaram mr 


图 2-12 集合 中 包含 整 型 和 字符 型 示例 


In [27]: | var = (1,3,5,6,4,2, (12)) 
var 


TypeError Traceback (most recent call last) 
<ipython-input-27-£5912640a9c1> in <module>Q 
——> 1 var = {1,3, 5,6, 4,2, {12}} 

2 var 


TypeError: unhashable type: ’ set’ 
图 2-13 集合 中 包含 整 型 和 字典 示例 
由 此 可 以 看 出 ,如 果 放 入 的 元 素 类 型 是 集合 或 者 列表 , 则 会 报 TypeError 错误 。 
如 果 集 合 里 都 是 整 型 和 字符 型 的 元 素 , 则 循环 遍历 集合 的 输出 结果 就 不 会 进行 排序 。 
那么 是 不 是 说 ,如 果 元 素 类 型 相同 ,就 一 定 会 排序 呢 ? 具体 如 图 2-15 所 示 。 
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In [28]: var = {1,3,5,6, 4, 2, [12, 34]} 


var 
TypeError Traceback (most recent call last) 
4ipython-input-28-5b774cfbc4445 in «module» () 
一 一 ”1 var = {1,3,5,6, 4, 2, [12, 34]} 

2 var 


TypeError: unhashable type: ’ list’ 


图 2-14 集合 中 包含 整 型 和 列表 示例 


Out[29]: la, 'c', 'd', e, f} 


In [30]: | for i in var: 
print (i) 


aonpma 


图 2-15 集合 中 字符 型 排序 示例 
可 见 , 如 果 集 合 的 元 素 全 是 字符 型 ,那么 实际 上 输出 的 结果 并 没有 进行 排序 。 
总 之 ,集合 中 可 以 放 不 同类 型 的 元 素 , 但 是 存放 的 元 素 只 能 为 数值 型 和 字符 
型 ,不 能 是 列表 类 型 和 集合 类 型 。 如 果 元 素 都 是 数值 型 , 则 循环 变量 的 输出 结果 
为 从 小 到 大 排序 后 的 结果 ; 如 果 元 素 都 是 字符 型 ,循环 变量 的 输出 结果 并 不 会 进 
行 排序 ; 如 果 元 素 既 有 数值 型 又 有 字符 型 , 则 循环 变量 的 输出 结果 也 不 会 进行 
排序 。 


2.4.2 集合 的 增删 


如 果 向 集合 中 添加 元 素 , 则 使 用 add ©) 函数 。 集 合 的 add() 示 例如 图 2-16 
所 示 。 
In [31]: names = {“Jack”, "David", “Rose”} 


names. add (^ Jone”) 
print (names) 


{’David’, 'Jone', 'Rose', ’ Jack’} 


216 ”集合 的 addOm ffl 
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如 果 要 随机 删除 集合 中 的 一 个 元 素 , 可 以 使 用 pop() 方 法 ; 如 果 要 删除 指定 的 元 
素 ,可 以 使 用 remove() 和 discard() 方 法 。 但 当 remove() 方 法 找 不 到 指定 的 元 素 时 ， 
会 报错 ; 而 当 discard() 方 法 找 不 到 指定 的 元 素 时 ,并 不 会 报错 。 如 图 2-17、 图 2-18 和 
图 2-19 所 示 。 
In [32]: names = ("David", “Jack”, “Jone”, “Rose”} 


result = names. pop) 
print (result) 


David 


图 2-17 集合 的 pop() 示 例 


In [33]: | names = (David^, “Jack”, “Jone”, "Rose") 
names. remove (^ Jack") 
names 


Out[33]: ('David', ’ Jone’, ’ Rose’ } 


In [34]: | names = {"David”, “Jack”, “Jone”, “Rose”} 
names. remove (^ Jack") 
names 
KeyError Traceback (most recent call last) 
Xipython-input-34-1l6dlbfbled445 in «module? () 


1 names = {"David", “Jack”, “Jone”, “Rose”} 
一 一 》2 names. remove (^ Jack1") 
3 names 


KeyError: ' Jackl’ 


图 2-18 集合 的 removeO zn ffl 


In [35]: names = ('David^, “Jack”, “Jone”, “Rose”} 
names. discard (“Jack”) 
names 


Out[35]: ÜDavid', ’ Jone’, ’ Rose’ } 


In [36]: names = {"David”, “Jack”, “Jone”, “Rose”} 
names. discard (”Jack1”) 
names 


Out[36]: ÜDavid', ’ Jack’, ’ Jone’, ’ Rose’ } 


2-19 集合 的 discard O zr fi 


2.4.3. 集合 的 交 、 并 、 补 等 操作 


在 数学 中 ,集合 有 交集 、 并 集 、 补 集 等 概念 ,那么 Python 中 是 否 支持 交集 、 并 
集 、 补 集 等 操作 呢 ? 集合 的 交 、 并 、 补 等 用 法 如 表 2-11 所 示 。 集 合 的 交 、 并 、 补 操 
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作 示 例如 图 2-20 所 示 。 


表 2-11 集合 的 交 并 补 等 用 法 


数学 符号 Python 符号 和 内 置 方 法 会 Xx 
— EN 一 或 difference) 差 集 
n & 或 intersection 交集 
U | 或 unionO. 并 集合 
* p= 不 等 于 
= == 等 于 
€ in 是 成 员 关系 
€ not in 不 是 成 员 关系 
In [37]: namesl = ("David^, “Jack”, “Jone”, “Rose”} 
names2 = ("Tom", “Lily”, "Rose^) 
names]. difference (names2) 
Out[37]: { David’, ’ Jack’, ’ Jone’) 
In [38]: namesl = ("David", “Jack”, “Jone”, “Rose”} 
names2 = ("Tom", “Lily”, “Rose”} 
names]. union (names2) 
Out [38]; ('David', ’ Jack’, ’ Jone’, 'Lily', 'Rose', ’ Tom’ } 
In [39]: namesl = ("David', “Jack”, “Jone”, "Rose") 
names2 = ("Tom", “Lily”, “Rose”} 
names]. intersection (names2) 
Out [39]: {’ Rose’ } 


图 2-20 ”集合 的 交 并 补 操作 示例 


2.5 字典 dictionary 


在 Python 中 ,字典 用 大 括号 { } 表 示 , 但 字典 与 集合 不 同 , 字 典 的 { } 里 面 必须 有 
键 和 对 应 的 值 ,而 集合 的 { } 里 只 需要 有 值 即 可 。 字 典 的 每 个 元 素 是 由 两 部 分 组 成 ， 
即 键 和 值 , 俗 称 键 值 对 (key-value) 。 每 个 键 值 对 key — value HAS": “分 割 ,每 个 
键 值 对 之 间 用 去 号 *, ”分割 。 其 语法 格式 如 下 : 


d = {keyl : valuel, key2 : value2 , «+ } 


【注意 】 


CD 字典 的 键 一 般 是 唯一 的 ,如 果 字 典 的 键 发 生 重 复 , 则 最 后 一 个 键 值 对 就 会 蔡 
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换 掉 前 面 的 键 值 对 。 字 典 含有 重复 键 的 输出 示例 如 图 2-21 所 示 。 


In [40]: | dict = la^; Lb "b^: 2, 7b^: "31 
dict[^b^] 

Out[40]: '3' 
In [41]: | dict 
Out[41]: fa: 1, 'b:'3] 

图 2-21 字典 含有 重复 键 的 输出 示例 

(2) 字典 的 值 可 以 取 任 何 数 据 类 型 ,但 是 键 必 须 是 不 可 变 类 型 ,如 数字 、 字 符 串 
和 元 组 ,但 是 不 能 使 用 列表 作为 字典 的 键 。 字 典 键 是 列表 时 的 示例 如 图 2-22 所 示 。 


In [42]: | dict = {["name”]: “Tom”, "b^: 2, “b”: '3'] 


dict 

TypeError Traceback (most recent call last) 
Xipython-input-42-afc6b08f35b6» in «module? Q 

一 一 ”1 dict = ([^name^]: “Tom”, ^b*: 2, *b^: '3'] 


2 dict 


TypeError: unhashable type: 'list" 


图 2-22 ”字典 键 是 列表 时 的 示例 


2.5.1 字典 的 查找 操作 


在 字典 中 ,如 果 想 获取 一 个 元 素 ,那么 只 需要 根据 字典 的 键 , 就 可 以 访问 到 对 应 
的 值 。 例 如 : 在 学 生 信息 系统 中 ,可 以 查询 学 生 姓名 ,也 可 以 查询 学 生 的 学 号 。 字 典 
的 查找 操作 示例 如 图 2-23 所 示 。 


In [43]: | stu info = {"name”: "Tom", “id”: 100, “sex”: “male”, “address”: “China”} 
print(stu info[^name"]) 
print (stu info[^id"]) 


Tom 
100 


图 2-23 字典 的 查找 操作 示例 
在 这 个 例子 中 ,name.id 都 是 字典 的 键 ,它们 存储 了 对 应 的 姓名 和 学 号 。 当 然 ， 
也 可 以 查询 性 别 、 地 址 等 信息 。 
如 果 查 询 的 键 不 存在 ,比如 , 想 查 询 stu info 中 的 年 龄 age 和 对 应 的 数值 ,得 到 
的 结果 是 什么 呢 ? 字典 中 不 存在 对 应 键 的 操作 示例 如 图 2-24 所 示 。 
在 查询 年 龄 age 时 ,stu_info 中 并 没有 存储 age 和 对 应 的 值 ,导致 结果 报错 。 错 


Python 机 器 学 习 一 数据 分 析 与 评分 卡 建 模 ( 微 课 版 ) | 
O 


In [44]: | print (stu_info[”age”]) 


KeyError Traceback (most recent call last) 
Xipython-input-44-3c4elca6ebeb? in «module: () 
——2 1 print (stu info[^age^]) 


KeyError: ' age 

图 2-24 字典 中 不 存在 对 应 键 的 操作 示例 
误 信息 为 : KeyError: 'age', 即 提示 stu_info 中 并 没有 age 这 个 键 。 当 不 确定 某 一 个 
字典 中 是 否 存在 某 个 键 ,但 是 又 想 获取 对 应 的 值 时 ,可 以 使 用 get() 方 法 ,同时 还 可 以 
设置 获取 值 的 默认 值 。 字 典 的 get() 方 法 示例 如 图 2-25 所 示 。 


In [45]: print(stu info. get (“age”)) 


None 

In [46]: print(stu info. get (“age”, 15)) 
15 
图 2-25 字典 的 get() 方 法 示例 


如 果 stu. info 中 不 存在 age 这 个 键 , 则 get() 方 法 返回 None。 给 get() 方 法 传人 
一 个 默认 值 15 。 当 不 存在 这 个 键 时 , 则 返回 默认 值 15。 


2.5.2 字典 的 增 、 改 操作 


在 查找 出 元 素 的 基础 上 ,就 可 以 对 元 素 进行 添加 或 修改 。 当 查找 的 键 存在 时 ,使 
用 变量 名 ['key'] = value 的 方式 ,实际 上 是 对 元 素 进行 修改 操作 。 当 查找 的 键 不 存 
在 时 ,使 用 变量 名 ['key'] = value 的 方式 ,可 以 将 该 key 和 对 应 的 value 添加 到 字典 
中 。 字 典 的 增 操作 示例 如 图 2-26 所 示 。 
In [47]: ere Bon “Tom”, ^id: 100, “sex”: “male”, “address”: "China") 


stu info['age"] = 18 
print(stu info) 


Üname': 'Tom', 'id': 100, 'sex': 'male', 'address': 'China'] 
Üname': 'Tom', 'id': 100, 'sex': 'male', ’address’: 'China', 'age': 18} 


2-26 字典 的 增 操 作 示例 


字典 的 每 个 元 素 中 的 数据 是 可 以 修改 的 ,只 要 通过 key 找到 ,就 可 以 修改 。 字 
的 改 操作 示例 如 图 2-27 所 示 。 


\ 
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In [48]: stu info = (name: “Tom”, “id”: 100, “sex”: “male”, “address”: “China”} 


print (stu_info) 

stu info['address^] = “England” 

print (stu_info) 

Üname': "Tom', 'id': 100, 'sex': 'male', ‘address’: ’ China’ } 
[ name’ : "Tom, 'id': 100, ’sex’: ’male’, 'address': 'England'] 


图 2-27 字典 的 改 操作 示例 


2.5.3 字典 的 删 操 作 


如 果 想 要 删除 字典 中 的 元 素 , 可 以 使 用 del.pop() 或 clearO ,. del 用 于 删除 指定 
的 元 素 , 也 可 用 于 删除 整个 字典 ,pop() 用 于 删除 指定 元 素 ,clear() 用 于 删除 整个 字 
典 。 字 典 的 del 操作 示例 如 图 2-28 所 示 o 


In [49]: | stu info = ('name*: “Tom”, "id": 
print (stu info) 
del stu info/^sex^] 
print(stu info) 


100, “sex”: "male", "address": "China") 


'Tom', 'id': 100, "sex': ‘male’, ‘address’: 'China'] 
l'name': 'Tom', 'id': 100, 'address': 'China'] 


图 2-28 字典 的 del 操作 示例 


del 除了 可 以 删除 指定 的 元 素 之 外 ,还 可 以 删除 整个 字典 。del 删除 整个 字典 操 
作 示 例如 图 2-29 所 示 。 


In [50]: | stu_info = ("name^: "Tom", "id^: 100, “sex”: “male”, “address”: "China"] 
print (stu_info) 
del stu_info 
print (stu_info) 


male’, 


{ name’ : ’Tom’, 'id': 100, ’sex’ ' address’ : ’ China’ } 


NameError Traceback (most recent call last) 
<ipython-input-50-68e2b1254419> in «module» 

2 print(stu info) 

3 del stu info 
一 一 ”4 print (stu info) 


NameError: name 'stu info' is not defined 
图 2-29 del 删除 整个 字典 操作 示例 
pop() 用 于 删除 指定 元 素 , 如 果 键 不 存在 , 则 报错 KeyError。 字 典 的 pop() 操 作 
示例 如 图 2-30 所 示 。 
clear() 用 于 删除 整个 字典 ,与 del 不 同 ,clear() 只 是 删除 字典 里 的 键 值 对 ,得 到 的 
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In [51]: | stu_info = ("name^: "Tom", “id”: 100, “sex”: “male”, “address”: China") 
print(stu info) 
stu info. pop (“sex”) 
print(stu info) 
Üname': 'Tom', id’: 100, "sex': ’male’, 'address': 'China') 
Üname': 'Tom', 'id': 100, 'address': 'China'] 

In [52]: | stu info = {"name”: "Tom", ^ 
print (stu info) 
stu info. pop (“age”) 
print(stu info) 


id”: 100, “sex”: “male”, “address”: “China” 


Üname': Tom’, ‘id’: 100, 'sex': 'male', ’ address’: ’ China’ } 
KeyError Traceback (most recent call last) 
Xipython-input-52-fb853e565135» in <module>Q 
1 stu info = [^name^: “Tom”, ^id": 
2 print(stu info) 
——» 3 stu info. pop (“age”) 
4 print(stu info) 


“sex”: “male”, “address”: “China”} 


KeyError: ’ age’ 
图 2-30 字典 的 pop() 操 作 示例 
结果 是 一 个 空 字典 ,del 则 是 删除 了 整个 字典 结构 。 可 以 类 比 于 一 本 书 ,clear() 是 把 


书 里 的 所 有 内 容 删除 ,虽然 变 成 了 空白 页 ,但 是 书 的 结构 还 在 ; del 则 是 完全 销毁 了 
这 本 书 , 即 书 的 结构 也 就 不 存在 了 。 字 典 的 del 和 clear() 对 比 示例 如 图 2-31 所 示 。 


In [53]: | stu_info = ("name": "Tom", “id”: 100, “sex”: “male”, “address”: “China”} 
print(stu info) 
stu_info. clear () 
print (stu_info) 


{' name’: *Tom’, 'id': 100, 'sex': 'male', ‘address’: ’ China’ } 


{} 


图 2-31 字典 的 del 和 clear() 对 比 示例 


2.5.4 字典 的 常用 方法 


除了 上 述 介绍 的 字典 的 增删 改 查 等 操作 ,字典 还 内 嵌 了 一 些 其 他 的 方法 ,字典 的 
Vi ii Jr tos DLE HI ln e 2-12 所 示 。 


表 2-12 字典 的 内 嵌 方 法 示例 


方法 名 及 含义 95 F 


>>> stu info = ('name'; 'Tom', 'id'; 100} 
>>> len(stu info) 
2 


lenO 
返回 字典 中 键 值 对 的 个 数 
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方法 名 及 含义 A T 


>>> stu info = {'name': 'Tom', 'id': 100) 


keysO 
i >>> stu info. keysO 


返回 字典 中 所 有 key 的 列表 


['name', 'id'] 

>>> stu info = ('name': 'Tom', 'id': 100) 
values) sss. cm ae 

stu. info. values 
返回 所 li 列 i 
Ha ['Tom', 100] 

; >>> stu info = ('name': 'Tom', 'id': 100} 
items() 


>>> stu info. itemsO 


de sas z " 
返回 一 个 列表 ,列表 里 的 元 素 是 ( 键 , 值 ) 元 组 | 00 OE Sa 1000] 


>>> stu info = {'name': 'Tom', 'id': 100) 


has keyCkey) 
cq AY. >>> stu info. has key('name') 


如 果 字典 的 键 中 含有 指定 的 key, 返 回 True, 


True 
Wal False, ( Python3 
GMiEBlEsls: (itis hE Hythons PRM >>> stu info. has keyC'age') 
BRD 
False 
>>> stu info = ('name'; 'Tom', 'id'; 100} 
in >>>'name' in stu info 
如 果 字 典 的 键 中 含有 指定 的 key 38 [p] True, | True 
否则 返回 False, (Python2,3 都 可 以 使 用 ) >>>'age' in stu info 
False 


2.5.5 有 序 字典 


如 果 和 希望 对 字典 做 迭代 ,按照 元 素 初 始 添加 的 顺序 进行 结果 输出 ,那么 就 可 以 使 
用 collections 包 下 的 OrderedDict 方法 。 

对 字典 做 迭代 时 , 它 会 严格 按照 元 素 初 始 添加 的 顺序 进行 。 有 序 字 典 
OrderedDict 的 遍历 示例 如 图 2-32 所 示 。 


In [54]: from collections import OrderedDict 
od = OrderedDict () 
od[^first^] = 1 
od["second"] = 2 
od["third"] = 3 
for key, value in od. items) : 
print(key, value) 


first 1 
second 2 
third 3 


图 2-32 有 序 字 典 OrderedDict 的 遍历 示例 
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通过 查看 源码 ,如 图 2-33 所 示 ,OrderedDict 内 部 维护 了 一 个 双向 链表 , 它 会 根据 
元 素 加 入 的 顺序 来 排列 键 的 位 置 。 第 一 个 新 加 入 的 元 素 被 放置 在 链表 的 末尾 ,再 对 
已 存在 的 键 做 重新 赋值 ,不 会 改变 键 的 顺序 。 


71class OrderedDict (dict): 


72 "Dictionary that remembers insertion order’ 

73 + An inherited dict maps keys to values. 

74 # The inherited dict provides — getitem , _len_, contains , and get. 
75  £ The remaining methods are order-aware. 

76 4 Big-O running times for all methods are the same as regular dictionaries. 
77 

78 # The internal self. map dict maps keys to links in a doubly linked list. 
79 # The circular doubly linked list starts and ends with a sentinel element. 
80  £ The sentinel element never gets deleted (this simplifies the algorithm). 
81 # The sentinel is in self.  hardroot with a weakref proxy in self. root. 
82 # The prev links are weakref proxies (to prevent circular references). 

83 # Individual links are kept alive by the hard reference in self. map. 

84 # Those hard references disappear when a key is deleted from an OrderedDict. 
85 


图 2-33 OrderedDict 的 简介 说 明 


由 于 采用 了 双向 链表 ,OrderedDict 的 大 小 是 普通 字典 的 两 倍 多 ,因此 ,在 想 要 构 
建 一 个 涉及 大 量 OrderedDict 实例 的 数据 结构 时 ,首先 需要 判断 增加 的 内 存 开销 是 否 
划算 ,然后 再 决定 是 否 使 用 OrderedDict 。 

在 实际 开发 过 程 中 只 知道 常用 的 操作 还 是 不 够 的 , 接 到 一 个 需求 之 后 ,最 主要 的 
任务 就 是 编写 出 实现 具体 功能 的 函数 。 


2.6 函数 


在 数学 中 ,给 出 长 方形 的 长 度 a 和 宽度 5, 求 出 长 方形 的 面积 S—ab. fk Python 
中 ,输出 的 结果 实际 上 就 相当 于 return 语句 ,长 度 和 宽度 实际 上 就 相当 于 函数 的 输入 
参数 。 

在 Python 中 ,定义 函数 的 语法 如 下 所 示 : 

def 函数 名 (输入 参数 1, 输 入 参数 2,……): 


函数 体 
return 返回 结果 


比如 这 个 计算 长 方形 面积 的 函数 ,就 可 以 写成 : 


def cal area(length, width): 
S = length * width 
return s 
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在 定义 函数 时 ,小 括号 中 的 参数 ,用 于 接收 参数 , 称 之 为 “ 形 参 "。 在 调用 函数 时 ， 
括号 中 的 参数 ,传递 给 函数 的 参数 , 称 之 为 * 实 参 ”。 

在 实际 开发 过 程 中 ,常常 需要 考虑 ,该 函数 需 不 需要 参数 ? 如 果 需 要 ,需要 几 个 
参数 ? 该 函数 需 不 需要 返回 值 ? 需要 返回 几 个 返回 值 ? 

根据 这 些 , 可 以 把 函数 分 为 4 种 类 型 ,如 表 2-13 所 示 。 


表 2-13 函数 的 4 种 类 型 


函数 类 型 


举 ø 


D 无 参数 ,无 返回 值 的 函数 

此 类 函数 ,不 能 接收 参数 ,也 没有 返回 值 。 一 
般 情况 下 ,打印 提示 类 的 功能 ,可 使 用 这 类 
函数 


def printHello(): 
print ( ' 欢 迎 光临 本 店 ') 
print( HEARR H) 


© 无 参数 ,有 返回 值 的 函数 

此 类 函数 ,不 能 接收 参数 ,但 是 可 以 返回 某 个 
数据 。 一 般 情 况 下 ,如 采集 数据 ,可 使 用 这 类 
函数 


def getTemperature(): 
return 24 


© 有 参数 ,无 返回 值 的 函数 

此 类 函数 ,能 接收 参数 ,但 不 返回 数据 。 一 般 
情况 下 ,该 函数 主要 用 于 对 变量 进行 赋值 ,如 
最 常见 的 secO 函数 


def setData(num) : 
self.num - num 


© 有 参数 ,有 返回 值 的 函数 

此 类 函数 ,不 仅 能 接收 参数 ,还 可 返回 某 个 数 
据 。 一 般 情况 下 ,对 于 数据 处 理 并 需要 结果 的 
应 用 ,可 用 这 类 函数 


def calculateNum(num) : 
result = 0 
duc 
while i<= num: 
result = result + i 
it=1 
return result 


在 实际 开发 过 程 中 ,第 一 类 函数 主要 用 于 打印 代码 调试 .警告 .错误 信息 等 ,方便 
开发 人 员 进 行 错误 跟踪 ,及 时 对 代码 进行 修改 和 优化 ; 第 二 类 函数 主要 用 于 获取 数 
据 , 最 常见 的 函数 就 是 get 方法 ; 第 三 类 函数 主要 用 于 设 告 数据 ,最 常见 的 函数 就 是 
set 方 法 ; 第 四 类 函数 是 重点 ,在 处 理 数 据 的 过 程 中 ,需要 知道 传 进来 的 参数 是 什么 ， 
对 其 进行 处 理 后 ,要 将 处 理 后 的 结果 再 返回 出 去 ,以 便 后 续 的 操作 。 
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2.7 小 结 


本 章 主要 介绍 了 常见 的 Python 数据 类 型 的 用 法 以 及 函数 的 4 种 类 型 。 在 实际 
开发 过 程 中 ,可 以 通过 查看 源码 ,来 帮助 理解 底层 的 实现 方式 。 遇 到 问题 的 时 候 , 多 
思考 ,多 动手 尝试 。 在 此 基础 上 ,明确 代码 的 处 理 逻 辑 和 顺序 ,但 不 重复 发 明 轮 子 , 使 
用 已 经 开发 好 的 包 或 者 第 三 方 库 , 可 以 达到 事半功倍 的 目的 ,从 而 提高 工作 效率 。 
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Python 下 的 实际 应 用 


Python 是 一 种 代表 简单 主义 思想 的 语言 ,有 “胶水 语言 "之 称 。 目 前 ,Python 的 
应 用 层面 也 十 分 广泛 ,主要 包括 数据 库 的 连接 .系统 编程 .网 络 怜 虫 .人工 智能 、 Web 
开发 .系统 运 维 、 大 数据 、 云 计算 、 图 形 界面 等 。 在 当前 环境 下 ,Python 重点 应 用 于 机 
器 学 习 和 人 工 智 能 方面 。 


3.1 Python 连接 MySQL 数据 库 


MySQL 数据 库 是 企业 最 常用 的 数据 库 之 一 :而 MySQL 数据 库 
最 常用 的 功能 是 select 查询 。 数 据 分 析 人 员 和 希望 可 以 用 Python 直 
接连 接 MySQL 数据 库 ,然后 读 取 数据 到 pandas 框架 中 。 

首先 安装 好 MySQL 数据 库 , 安 装 步骤 详 见 附录 B。 然 后 安装 pymysql, 安装 语句 
为 : pip install pymysql ,安装 好 这 个 包 以 后 ,在 Jupyter Notebook 中 使 用 以 下 代码 : 


import pandas as pd 

import pynysql 

conn = pymysql.connect( 
host = ' 主 机 IP’, 
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user = JHP A, 
password = "WA, 
db = 数据 库 名 '， 
port = 端口， 
charset = 'utf8') 
table = "select...from..." 


上 面 的 table 就 是 连接 mysql 后 查询 到 的 表 。 然 后 用 下 面 代码 ,就 可 以 直接 把 数 
据 读 取 到 pandas 框架 中 了 。 数 据 读 取 到 pandas 框架 后 ,就 可 以 使 用 pandas 的 常见 
功能 对 数据 进行 处 理 , 比 如 填补 缺失 值 .删除 数据 等 。 


data = pd.read sql(table, conn) 


3.2 Python 连接 MongoDB 数据 库 


MongoDB 数据 库 也 是 企业 常用 的 数据 库 之 一 。MongoDB 数据 
库 是 一 个 介 于 关系 数据 库 和 非 关 系数 据 库 之 间 的 产品 ,是 非 关 系数 
据 库 中 功能 最 丰富 、 最 像 关系 数据 库 的 一 种 数据 库 。 

相对 于 MySQL 数据 库 ,MongoDB 数据 库 具 有 独特 的 优势 。 同 样 地 ,Python 也 可 
以 直接 连接 MongoDB 数据 库 ,并 把 数据 读 取 到 pandas 框架 中 。 安 装 步骤 详 见 附 录 C. 

首先 安装 pymongo, 安装 语句 为 : pip install pymongo。 安 装 步 又 详 见 附录 Fo 
安装 好 pymongo 后 ,使 用 方法 如 下 : 

import pandas as pd 

from pymongo import MongoClient 

client = MongoClient(' 主 机 IP', port = 端口 ) 

db = client. 数 据 库 名 


db. authenticate( ' 用 户 名 '，' 密 码 ') 
table = db. 表 名 


与 MySQL 数据 库 一 样 , 上 面 的 table 就 是 连接 MongoDB 后 查询 到 的 表 , 然 后 使 
用 下 面 代码 ,就 可 以 直接 把 数据 读 取 到 pandas 框架 了 ,其 中 ,find 括号 里 可 以 加 入 
MongoDB 数据 库 查询 语句 。 


data = pd.DataFrame(list(table. find())) 
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3.3 结巴 分 词 和 词 云图 


Python 可 以 处 理 文本 数据 ,常见 的 有 NLTK 自然 语言 处 理工 
具 包 、LSTM 长 短期 记忆 网 络 , 但 这 些 工 具 包 基本 上 都 用 于 处 理 英 
文 。 这 里 介绍 下 简单 且 常 用 的 中 文 语 言 处 理工 具 包 jieba。 

下 面 将 以 Mac 系统 为 例 讲解 jieba 和 wordcloud 的 安装 方法 ,安装 语句 为 : pip 
install jieba,pip install wordcloud。 步 骤 参 考 附录 下 第 三 方 包 安 装 步骤 。 

本 节 以 网 络 下 载 的 小 说 (天 龙 八 部 ) 为 例 ,讲解 jieba 和 word cloud 的 用 法 。 


视频 讲解 


import pandas as pd 
import os 
os. chdir('../data') 
character = open( ' 天 龙 八 部 人 物 表 . txt', encoding = 'utf -8'). read() 
… 添 加 词性 " 
import re 
data = re.split(r'\s+|: |, ', character) 
data = pd.DataFrame(data, columns =[' 姓 名 ']) 
data[ ' 词 性 '] = ‘nr’ 
data. to_excel(' 天 龙 八 部 人 物 分 词 .xlsx'，index = False, header = None) 
n B se c e 
import jieba 
jieba.enable parallel(4) 
jieba.load userdict( ' 天 龙 八 部 人 物 词 典 .txt') 
"rond p sd pent 
stopwords = [line.rstrip() for line in open(' 停 用 词 表 .txt'，encoding = 'utf - 8')] 
”jieba 4i" 
def seg sentence(sentence): 

sentence seged - jieba.cut(sentence. strip()) 

outstr = '' 

for word in sentence seged: 

if word not in stopwords: 
if word != '\t': 
outstr += word 
outstr t=)" 

return outstr 
inputs = open( AJE ABB. txt', 'r', encoding = 'GB18030') 
outputs = open(' 天 龙 八 部 分 词 .txt'，'w'，encoding = 'utf - 8") 
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for line in inputs: 
line seg = seg sentence(line) 
outputs.write(line seg + '\n') 
outputs. close() 


inputs.close() 


分 词 过 后 ,就 可 以 进行 文本 分 析 了 。 先 加 载 分 词 后 的 txt 文本 


text = open(' 天 龙 八 部 分 词 .txt'，encoding= 'utf -8'). read() 


然后 指定 词性 ,提取 关键 词 ,并 打印 出 由 TF-IDF 方法 计算 出 的 权重 最 大 的 前 10 
人 物 , 效 果 如 图 3-1 所 示 。 


+ U RERE, RAUA: TF-IDF 
import jieba.analyse 


n=100 HIE BEEN 
result-jieba.analyse.extract tags(text, topK=n, withWeight-True, allowPOS-('nr',)) 


result[:10] PTM MENA 8 


‘fill’, 0.5891293630142107), 
"Rl, 0.4638848540025745), 
3369411093846939), 
-2771830168385107), 
*, 0.26712617741403344), 
', 0.23669144784504287), 
UE, 0.22647654172059356), 
‘BIR’, 0.21979838728524273), 
WAM’, 0.21805626004123815), 
RW’, 0.1742127244004566)] 


图 3-1  TF-IDF 计算 出 的 权重 最 大 的 前 10 人 


"ig aei 
keywords - dict() 
for i in result: 
keywords[i[0]] = i[1] 
"设置 词 云 属性 '”" 
from PIL import Image 
import numpy as np 
from wordcloud import WordCloud, ImageColorGenerator 
import matplotlib.pyplot as plt 
image = Image. open( ‘fl }r. jpeg’) 
graph = np. array( image) 
wc = WordCloud(font path- '/Library/Fonts/Songti.ttc', d iE 


background color - "White', fGuW RN 
max words - n, # 设 置 词 云 显 示 的 最 大 词 数 


mask = graph) # 设 置 背景 样式 
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最 后 效果 如 图 3-2 所 示 。 


In [41]: '' ' 生 成 词 云 ''' 
wc.generate from frequencies(keywords) 
plt.imshow(wc) 
image color - ImageColorGenerator(graph) 
plt.imshow(wc.recolor(color func-image color)) 
plt.axis("off") 
plt.show() 
wc.to file('idz.jpg') 


ae JE BET 
Ed : ur 


图 3-2 词 云 生成 图 


3.4 简单 社交 网 络 


目前 ,社交 网 络 是 大 数据 时 代 的 热门 课题 之 一 ,正式 的 社交 网 络 
一 般 用 Neo4j 来 做 , Neo4j 的 入 门 与 应 用 将 在 本 书 第 8 章 中 进 
行 详细 介绍 。 本 章 将 介绍 Python 语言 中 的 简单 社交 网 络 。 
import pandas as pd 
datal = pd.read excel( ' 牛 魔王 关系 图 .xlsx') 
data2 = pd. read_excel( ' 孙 悟空 关系 图 . xlsx') 
data3 = pd. read_excel( ' 唐 僧 关 系 图 .xlsx') 


data4 = pd.read excel( ' 猪 八 戒 关系 图 .xlsx') 
data = pd.concat([datal, data2, data3, data4]) 


简单 社交 网 络 数据 展示 图 ,如 图 3-3 所 示 。 

Source 是 源 节点 ,Target 是 目标 节点 ,Weight 是 关系 权重 。 
在 社交 网 络 中 有 4 个 重要 的 定义 。 

(1) 度 中 心性 : 一 个 节点 在 网 络 中 的 连接 数 。 
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In [5]: data.head() 


Out[5]: Source Target Weight 
0 FRE 铁 扇 公主 
1 FRE APRIL 7 
2 SRE WES 5 
3 。 牛 魔王 ” 玉 面 狐狸 6 
4 铁 扇 公主 ABIL 8 


图 3-3 简单 社交 网 络 数据 展示 图 
(2) 接近 中 心性 : 识别 集群 内 部 被 高 度 连接 的 节点 。 
(3) 中 介 中 心性 : 识别 连接 不 同 集群 的 节点 。 
(4) 网 页 排名 : 衡量 节点 活跃 度 ,节点 越 活跃 ,pangrank 值 越 大 。 


import networkx as nx 
graph = nx.from pandas dataframe(data, 'Source', 'Target', edge attr- [ Weight']) 


度 中 心性 ,接近 中 心性 、 中 介 中 心性 ,网 页 排名 分 别 如 图 3-4、 图 3-5. F8 3-6 和 图 3-7 
所 示 。 


， 度 中 心性 后 络 中 的 连接 数 ''" 


degree df aFrame (columns=[" 度 中 心性 "] ) 

degree df[* ] = pd.Series(nx.degree centrality(graph)) 
degree_df.sort_values('M#Pit', ascending-False) [:10].plot (kind-'barh') 
plt.show() 

.-— m 度 中 心性 
x amm 

+ 

rs 

F m NE 

E 

| 
| 
C 

A 

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 


图 3-4 度 中 心性 展示 图 
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中 心性 : 其 有 高 接近 中 
closeness df = pd.DataFrame (columns=[' 接 近 中 心性 "]) 
closeness df['& '] = pd.Series(nx.closeness centrality(graph)) 
closeness df.sort values(' x 

plt.show() 


Go mm 接近 中 心性 


性 '，ascending=False) [:10] .plot (kind="barh') 


0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 
图 3-5 接近 中 心性 展示 图 

"中介 中 心 攻 HHA 
betweenness df = pd.DataFrame (columns=[' 中 介 中 心性 "]) 
betweenness_df [' 中 介 中 心性 '] = pd.Series(nx.betweenness centrality(graph)) 
betweenness df.fillna(0, inplace-True) 
betweenness df.sort values(''f t£', ascending-False)[:10].plot(kind-'barh') 
plt.show() 

43 mmm 中 介 中 心性 

1] 
"T 

ed 
F4 

Ed 
8 -J 
D- 
人 - 
II 

0.0 0.1 0.2 0.3 0.4 0.5 


图 3-6 ”中 介 中 心性 展示 图 
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pagerank df = pd.DataFrame (columns-[' n 

pagerank_df[' 网 页 排名 '] = pd.Series(nx.pagerank (graph) ) 
pagerank_df.sort_values('Mii##%', ascending=False) [:10] .plot (kind='barh') 
plt.show() 


n mm mm 网 页 排名 


0.00 0.025 0.050 0.075 0.100 0125 0150 0.175 
图 3-7 网 页 排名 展示 图 
社交 网 络 可 视 化 代码 如 下 : 


plt. figure(figsize= (20, 10)) 

node_color = [graph. degree(v) for v in graph] 

# ”节点 颜色 由 节点 的 度 决定 

node size = [5000 * nx.degree centrality(graph)[v] for v in graph] 
# ”节点 的 大 小 由 degree centrality 决定 

edge width = [0.2 * graph[u][v][ 'Weight'] for u, v in graph. edges()] 
# 边 的 宽度 由 权重 决定 

pos = nx.spring layout(graph) 

nx.draw networkx(graph, pos, node size = node size, node color = node color, alpha = 0.7, 
with labels = False, width- edge width) 

top = degree_df. sort_values( ' 度 中 心性 '，ascending = False)[: 10] 

# ”最 重要 的 toplo 人 物 

top = top. index.values. tolist() 

labels = {role: role for role in top} 

* ”创建 label, 不 同 的 度量 方法 .标签 不 一 样 

nx.draw networkx labels(graph, pos, labels = labels, font size= 20) 
* ”添加 label 

plt.show() 

nx. write_gexf(graph，' 度 中 心性 . gexf') 


社交 网 络 可 视 化 结果 ,如 图 3-8 所 示 。 
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0.25- 1 
0.00 
-0.25 ~ 
-0.50 
-0.75 
EN 0.75 050 25 0.00 025 


图 3-8 社交 网 络 可 视 化 结果 展示 图 


0.50 0.75 1.00 


最 小 社区 探测 代码 如 下 : 


kx = 3 

klist = list(nx.k_clique_communities(graph,k)) 

print ("生成 的 社区 数 : &d" % len(klist)) 

plt. figure(figsize= (20, 10)) 

nx.draw networkx(graph, pos = pos, nodelist = klist[0], node size= node size, node color 
= 'r', alpha- 0.7, with labels = False, width= edge width) 

nx.draw networkx(graph, pos = pos, nodelist = klist[1], node size- node size, node color 
= 'y', alpha=0.7, with labels = False, width= edge width) 

nx.draw networkx labels(graph, pos, labels = labels, font size- 20) 

plt. show() 


最 小 社区 探测 可 视 化 结果 ,如 图 3-9 所 示 。 


0.2 


0.0 


-0.6 -0.4 Eor 0.0 0.2 


图 3-9 最 小 社区 探测 可 视 化 展示 图 
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上 述 代码 指定 & 一 3, 即 一 个 社区 至 少 有 3 个 节点 两 两 相连 ,而 这 里 生成 了 两 个 社 


区 。 在 金融 领域 ,社区 探测 法 常用 于 寻找 欺诈 团体 。 


3.5 JSON 解析 


在 进行 数据 分 析 时 ,从 数据 库 中 导出 的 数据 ,可 能 是 JSON 格式 
入。 那么 JSON 是 什么 呢 ? JSON 是 JavaScript Object Notation 的 缩 
E ,是 一 种 轻 量 级 的 数据 交换 格式 ,或 者 说 是 一 个 像 字典 一 样 的 字符 
。 下 面 以 读 取 1 个 JSON 文件 为 例 ,向 大 家 进行 展示 。 


eh 
E: 


import json 
with open( 'food. json', 'r') as f: 
data - json.load(f) 


预览 结果 如 图 3-10 所 示 。 


In [34]: data[0] 


Out[34]: ('description': 
'group': 
'id': 1008, 
'manufacturer': '' 
'nutrients': 

'group': 'Composition', 
'units': 'g', 
'value': 25.18), 

'description': 

: 'Composition', 


, 


一 


‘s'g', 
': 29.2}, 
‘description’: 
'group': 'Composition', 
'units': 'g', 

'value': 3.06), 


一 


[('description': 


视频 讲解 


'Cheese, caraway', 
'Dairy and Egg Products', 


'Protein', 


'Total lipid (fat)', 


'Carbohydrate, by differenc 


('description': 'Ash', 'group': 'Other', 'u 
('description': 'Energy', 
'group': 'Energy', 


图 3-10 food.json 数据 预览 展示 图 
以 上 就 是 文件 food. json 里 面 的 内 容 。 通 常 .理想 的 格式 是 像 pandas 那样 标准 


的 格式 ,该 怎么 处 理 呢 ? 
仔细 观察 上 面 的 JSON 文件 ,可 以 发 现 有 5 


manufacturer 和 nutrients。 其 中 前 4 个 键 的 取 值 是 


个 列表 ,列表 中 包含 的 是 男 一 个 JSON 格式 的 数据 。 


个 
字 


主键 : description, group, id, 


符 串 ,但 nutrients 的 取 值 是 一 
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基于 上 述 规律 , 先 处 理 单独 的 4 个 主键 (description ,group \id 和 manufacturer) ， 
再 处 理 主键 nutrients 的 内 容 。 


keys = ['id', 'description', 'group'] 
keys_df = pd.DataFrame(data, columns = keys) 
nutrients = [] 
for i in data: 
temp = pd.DataFrame(i['nutrients']) 
temp['id'] = i['id'] 
nutrients.append(temp) 
nutrients = pd.concat(nutrients, ignore index = True) 


最 终结 果 如 图 3-11 所 示 。 


In [36]: nutrients.head() 


Outt36s description group units value — id 
0 Protein Composition g 25.18 1008 
1 Total lipid (fat) Composition g 29.20 1008 
2 Carbohydrate by difference Composition g 3.06 1008 
3 Ash Other 9 3.28 1008 
4 Energy Energy kcal 376.00 1008 


图 3-11 解析 food. json 中 的 nutrients 数据 


下 面 处 理 略 微 复杂 一 些 的 JSON。 


with open( 'report. json', 'r') as f: 
data = json.load(f) 


【注意 】 
这 个 JSON 文件 涉及 敏感 信息 ,所 以 本 书 仅 作 代 码 示例 ,不 提供 文件 示例 。 
预览 结果 如 图 3-12 所 示 。 


In [40]: data[0] 


Out[40]: ('create time': 1504088427000, 

'id': 1233, 

'modify time': None, 

'mongo id': None, 

'report data': '("trip analysis":[("called cnt":"620","talk : 
led seconds":"58635","receive cnt":"0","date distribution":["i 
-03"],"detail":[("called cnt":"151","talk seconds":"29980","t: 
1","receive cnt":"0","month":"2017-08","call cnt":"204","unknc 
("called cnt":90,"talk seconds":14568,"talk cnt":186,"msg cnt' 
7-07","call cnt":96,"unknown cnt":0,"send cnt":0,"call second: 


图 3-12 report. json 数据 预览 展示 图 
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下 面 展 示 解 析 report data 里 的 trip analysis 字段 的 代码 示例 。 


trip_analysis = [] 
for i in data: 
strl- i['report data'] 
dictl = json.loads(strl) 
temp = pd. DataFrame(dict1[ trip analysis']) 
temp['user id'] = i['user id'] 
trip analysis. append( temp) 
trip analysis = pd.concat(trip analysis, ignore index = True) 


最 终结 果 如 图 3-13 所 示 。 


In [43]: trip analysis.head(1) 


Out[43]: call cnt call seconds called cnt called seconds date distribution 
2017-08, 2017- 

07, 2017-06, 

0 847 66569 620 EX 9517/05, 2017. 

04, ... 


图 3-13 解析 report. json 中 的 trip analysis 数据 


3.6 OCR 文字 识别 


先 给 大 家 看 一 张 带 有 文字 内 容 的 图 片 ,如 图 3-14 所 示 。 
将 图 片 识 别 成 文字 ,如 图 3-15 所 示 。 


one — 


BUR DA RRR EAR. RT AR i. BEN. TEM 
弟 虽 富贵 无 极 ， 仍 常 微服 出 游 ， 过 到 武林 中 人 前 来 探访 或 是 寻 仇 ， 也 总 是 按照 武 
林 规 矩 对 待 , 从 不 摆 皇 室 架子 .是 以 保定 帝 这 日 御驾 亲征 , 众 从 人 都 是 司空 见 惯 ， 
毫 不 惊扰 。 自 保定 帝 以 下 ， 人 人 均 已 换 上 了 人 常服， 在 不 识 者 眼中 ， 只 道 是 绪 绅 大 
户 带 了 从 人 出 游 而 已 。 


图 3-14 小说. png 图 片 展示 图 


zhaikundeiMac:~ zhaikun$ python ocr.py 
请 输入 文件 名 : 小 说 .png 

已 收 到 ， 正 在 处 理 ， 请 稍 后 ... 

处 理 完成 

zhaikundeiMac:~ zhaikun$ ff 


图 3-15 图 片 识别 程序 运行 展示 图 
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下 面 是 转化 后 的 效果 ,如 图 3-16 所 示 。 


oce _ 小 说 .png.txt ~ 
段 氏 以 中 原 武林 世家 在 大 理 得 国 , 数 百 年 来 不 失 祖 宗 遗 风 。 段 正明 、 正 淳 兄 

弟 虽 富贵 无 极 , 仍 常 微服 出 游 , 遇 到 武林 中 人 前 来 探访 或 是 寻 仇 , 也 总 是 按照 起 
林 规 矩 对 待 , 从 不 摆 皇 室 架子 。 是 以 保定 帝 这 日 御驾 亲征 , 众 从 人 都 是 司空 见 惯 ， 
毫 不 惊扰 。 自 保定 帝 以 下 ,人 人 均 已 换 上 了 常服 , 在 不 识 者 眼中 , FUB TEE 


户 带 了 从 人 出 游 而 已 。 


图 3-16 图 片 识别 为 文字 之 后 的 txt 文档 展示 图 


是 不 是 很 酷 ! 这 是 怎么 做 的 呢 ? 其实 操作 很 简单 , 写 一 段 简单 的 代码 ,调用 百度 
API ny, 
先 打开 网 址 : https: //login. bce. baidu. com/ ,登录 百度 账号 ,如 图 3-17 所 示 。 
百度 账号 云 账 号 (推广 帐号 ) 
ii 2 = 
mA Ps 
mua m 


SARAR. MRLE, MRAR. MENN, KR 
等 产品 通用 。 


图 3-17 登录 百度 云 页 面 展示 图 
然后 单 击 “ 创 建 应 用 ”按钮 ,就 能 获取 AppID、API Key, Secret Key, 如 图 3-18 和 
图 3-19 所 示 。 


产品 服务 / 文字 识别 - 应 用 列表 


应 用 列表 


十 创建 应 用 


图 3-18 创建 文字 识别 应 用 


应 用 名 称 AppiD API Key Secret Key 


图 3-19 应 用 名 称 及 对 应 的 AppID, API Key,Secret Key 展示 图 
然后 安装 baiduraip ,安装 语句 为 : pip install baidu-aip ,安装 教程 详 见 附录 FF。 安 


装 好 后 ,代码 如 下 。 
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from aip import AipOcr 
import codecs 
import os 
os. chdir( '../data') 
def ocr(path): 
with open(path, 'rb') as f: 
return f. read() 
def main(): 
file name = str(input(' 请 输入 文件 名 :')) 
print (' 已 收 到 ,正在 处 理 ,请 稍 后 … ') 
app id = ' 你 自己 的 id’ 
api key = ' 你 自己 的 api key ' 
secret key = ' 你 自己 的 secret key ' 
client = AipOcr(app id, api key, secret key) 
image = ocr(file name) 
dictl - client.general(image) 
with codecs.open(file name t ".txt", "w", "utf - 8") as f: 
for i in dictl[ words result']: 
f. write(str(i['words']) + "\r\n") 
print (' 处 理 完成 ) 


if nam  -- ' main . 


通过 运行 以 上 代码 就 可 以 成 功 调用 百度 的 API, 从 而 进行 OCR 识别 了 。 除 了 普 
通 的 文字 识别 ,还 能 进行 以 下 特殊 文件 识别 ,如 图 3-20 所 示 。 


”网 络 图 片 文字 识别 
* 身份 证 识别 

* 银行 卡 识别 

* 驾驶 证 识别 

* 行驶 证 识别 

* 车 牌 识别 
”营业 执照 识别 

* 表格 文字 识别 


”通用 票据 识别 


3-20 百度 OCR 的 其 他 文件 识别 展示 图 
具体 介绍 的 链接 地 址 为 : https://cloud. baidu. com/doc/OCR/OCR-API. html. 
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3.7 pyecharts 


ECharts 是 一 个 使 用 JavaScript 实现 的 开源 可 视 
化 库 , 可 以 流畅 地 运行 在 PC 端 和 移动 设备 上 ,提供 直 
观 的 、 交 互 丰富 的 、 可 高 度 个 性 化 定制 的 数据 可 视 化 图 
表 , 官 网 链接 地 址 为 : http://echarts. baidu. com/. FA ECharts 生成 的 图 的 可 视 化 效 
果 非 常 棒 , 为 了 与 Python 进行 对 接 ,同时 方便 在 Python 中 直接 使 用 数据 生成 图 , 国 
内 开发 人 员 开 发 出 了 第 三 方 包 : pyecharts。 

首先 安装 pyecharts ,安装 语句 为 : pip install pyecharts, 安 装 教程 详 见 附 录 下 。 
安装 好 后 ,打开 Jupyter Notebook。pyecharts 有 交互 效果 ,所 以 需要 用 Jupyter 
Notebook 运行 以 下 代码 。 

先 读 取 数 据 : 


import pandas as pd 

import os 

os. chdir( '../data') 

data = pd. read excel(' 房 价 与 工资 . xlsx') 


数据 预览 如 图 3-21 所 示 。 
In [3]: data.head(3) 
Oye 城市 省份 房屋 均 价 ASIH 
o 北京 市 北京 63239 9240 


1 重庆 市 重庆 10351 5962 
2 广州 市 广东 30894 7409 


图 3-21 房价 与 工资 . xlsx 数据 预览 展示 图 
下 面 指定 zz 轴 和 y 轴 : 


x = list(data[ ' 城 市 ']) 
yl = list(data[ ' 房 屋 均 价 ']) 
y2 = list(data[ ' 人 均 工资 ']) 


先 看 如 何 绘 制 垂直 条 形 图 ,代码 如 下 ,结果 如 图 3-22 所 示 。 


from pyecharts import Bar 
bar = Bar() 
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bar.add(" 9 EE JS fft (J6)", x, yl, mark_point = [ "max", "min"], mark_line=["average"], is_ 
label show- True) 

bar.add(" A.Sj VE (75)", x, y2) 

bar 


EB sas (元 ) GB 人 均 工资 (元 ) 


70000 e 


60000 


52240 52456 


50000 
40000 
30000 $R ----------- —M —B-- 2 Ru DESEE > 30362.55 
20000 


10000 


北京 市 。 重庆 市 ”广州 市 ”上海 市 ”深圳 市 。 天津 市 合肥 市 ”杭州 市 ”南京 市 ”佛山 市 。 东莞 市 


图 3-22 房价 与 工资 . xlsx 数据 垂直 条 形 图 
图 例 是 可 以 交互 的 , 单 击 图 3-22 正 上 方 的 “房屋 均 价 (元 )”, 可 得 如 图 3-23 Bros 
的 交互 图 。 
Um 房屋 均 价 (元 ) 


70000 
69 


52240 


30000 $S --- - - - - - - EET ERE Miis "722262. === =n mannan nnn > 30362.55 


北京 市 ”重庆 市 ”广州 市 Leh ”深圳 市 x-t Seb 。 杭州 市 ”南京 市 ”佛山 市 ”东莞 市 


图 3-23 房价 与 工资 . xlsx 数据 交互 图 
再 看 如 何 绘制 水 平 条 形 图 ,代码 如 下 ,结果 如 图 3-24 所 示 。 


from pyecharts import Bar 

bar - Bar() 

bar. add(" 5 E35] fft (75) ", x, y1) 
bar.add(" A35 T. VE (76) ", x, y2, is convert = True) 
bar 
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GB 房 尼 均 价 (元 ) GB 人 均 工资 (元 ) 


orn wanan © 


0 10,000 20,000 30,000 40,000 50,000 60,000 70,000 
图 3-24 房价 与 工资 . xlsx 数据 水 平 条 形 图 
再 看 如 何 绘制 直方 图 ,代码 如 下 ,结果 如 图 3-25 所 示 。 
from pyecharts import Bar 
bar - Bar() 


bar. add( '$ #34 ffr (25)', x, yl, bar category gap- 10, is label show- True) 
bar 


ED 房屋 均 人 (元 ) 


70000 4 


60000 


52240 — 52456 


50000 4 


40000 


30000 


北京 市 ”重庆 市 ”广州 市 ”上 海 市 ”深圳 市 ”天 津 市 eet ”杭州 市 ”南京 市 ”佛山 市 mSS 
图 3-25 房价 与 工资 . xlsx 的 房屋 均 价 直方 图 
再 看 如 何 绘制 折线 图 ,代码 如 下 ,结果 如 图 3-26 所 示 。 


from pyecharts import Line 
line - Line() 


(59) 
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line. add( ' 房 屋 均 价 (元 )'， x, yl, is_label_show = True) 
line.add(' 人 均 收 入 (元 )', x, y2) 


line 
O 房屋 均 价 (元 ) -O 人 均 收入 (元 ) 
70000 
63239 
60000 
52240 52456 
50000 
40000 
30000 
20000 


北京 市 ”重庆 市 ”广州 市 ”上 海 市 ”深圳 市 ”天津 市 eeb ”杭州 市 ”南京 市 ”佛山 市 F 
图 3-26 房价 与 工资 . xlsx 的 数据 折线 图 
再 看 如 何 绘制 饼 图 ,代码 如 下 ,结果 如 图 3-27 所 示 。 


from pyecharts import Pie 

pie = Pie() 

pie. add( 'È IS fr (76)', x, yl, is label show- True, legend orient- 'vertical', legend pos 
= 'left') 

pie 


Em 北京 市 
[ ikt 东莞 市 : 4.49% 
we ran 佛山 市: 3.86% 
ED st 南京 市 : 8.31% 
m 深圳 市 
[ EU 
合肥 市 杭州 市 : 8.84% 
Um 杭州 市 
Bart 
佛山 市 合肥 市: 4.43% 一 
[Él 


北京 市 : 18.93% 


广州 市 : 9.25% 


RBM: 7.44% 


— 上 海 市 : 15.6496 
深圳 市 : 15.71% 


3-27 ”房价 与 工资 . xlsx 的 房屋 饼 图 
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也 可 将 条 形 图 和 折线 图 绘制 在 同一 个 图 形 里 ,代码 如 下 ,结果 如 图 3-28 所 示 。 


from pyecharts import Bar, Line, Grid 

bar - Bar() 

bar.add(" 房 屋 均 价 (元 )"， x, yl, is label show- True) 
bar.add(" 人 均 工资 (元 )"，x, y2) 

line = Line() 

line. add( ' 房 屋 均 价 ( 元 )', x, yl, is label show- True) 
line.add(' 人 均 工资 (元 )',，x, y2) 

grid = Grid() 

grid.add(bar, grid bottom= "60%") 

grid.add(line, grid_top = "60 % ") 


grid 
EB 房屋 均 从 (元 ) WHO 人 均 工资 (元) 
70000 
60000 52240 — 52456 
50000 
40000 29522 
30000 27763 
20000 12890 15008 
10000 


北京 市 ”重庆 市 ”广州 市 ”上海 市 mb ”天津 市 ”合肥 市 。 杭州 市 。 南京 市 UTE 


70000 4 53239 


60000 
50000 

40000 29522 27763 

30000 

20000 -— 478.77 2800 18008 
10000] »— — Y MÀ m 


北京 市 ”重庆 市 ”广州 市 BSS ”深圳 市 ”天津 市 ”合肥 市 ”杭州 市 ”南京 市 BUS m 
图 3-28 房价 与 工资 . xlsx 的 数据 条 形 图 和 折线 图 
在 条 形 图 上 全 加 折线 图 ,代码 如 下 ,结果 如 图 3-29 所 示 。 


from pyecharts import Overlap, Bar, Line, Grid 

bar = Bar() 

bar. add( ' 房 屋 均 价 (元 ) ，xr y1) 
bar.add( ' 人 均 工资 (元 )',，x, y2) 

line = Line() 

line. add( ' 房 屋 均 价 (元 )', x, yl, is label show- True) 
line.add(' 人 均 工资 (元 )', x, y2, is label show- True) 
overlap = Overlap() 

overlap. add(bar) 

overlap. add(line) 

overlap 


( 61 ) 
o 
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EB 房屋 均 价 ( 元 ) GB 人 均 工 资 (元 ) 


70000 


63239 


60000 


40000 


30000 


20000 


10000 


北京 市 ”重庆 市 ”广州 市 Ll 深圳 市 。 天津 市 。 合肥 市 。 杭州 市 。 南京 市 ”佛山 市 ”东莞 市 
图 3-29 房价 与 工资 . xlsx 的 数据 条 形 图 全 加 折线 图 
使 用 pyecharts 也 可 创建 仪表 盘 图 ,代码 如 下 ,结果 如 图 3-30 所 示 。 


from pyecharts import Gauge 

gauge = Gauge() 

gauge.add('', '', '80', scale range- [0, 100], angle range- [180, 0]) 
gauge 


80% 
图 3-30 pyecharts 创建 的 仪表 盘 图 
使 用 pyecharts 也 可 创建 城市 散 点 图 , 感 兴趣 的 读者 可 以 尝试 运行 ,看 看 运行 


结果 。 


import numpy as np 
temp = np.array(data[[ ' 城 市 ', ' 房 屋 均 价 ']]).tolist() 
a= [] 
for i in temp: 
z= tuple(i) 
a. append(z) 
from pyecharts import Geo 
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geo = Geo(" 全 国 主要 城市 房价 散 点 图 "，title_color =" # fff", title pos= "center", width = 
800, height = 600, background color = '# 404a59') 

city, value = geo.cast(a) 

geo.add("", city, value, visual range = [10000, 50000], visual text color = "i fff", 
symbol size = 15, is visualmap- True) 

geo 


使 用 pyecharts 也 可 创建 城市 散 点 涟 满 图 ,代码 如 下 : 


from pyecharts import Geo 

geo = Geo(" 全 国 主要 城市 房价 散 点 涟 满 图 ",， title color =" # fff", title pos = "center", 
width = 800, height = 600, background_color = '# 404a59') 

city, value = geo.cast(a) 

geo. add("", city, value, type = "effectScatter", is random = True, effect scale- 5) 

geo 


使 用 pyecharts 也 可 创建 热力 图 ,代码 如 下 : 


from pyecharts import Geo 

geo = Geo(" 全 国 主要 城市 房价 热力 图 ", title color- "£& fff", title pos- "center", width= 
800, height = 600, background color = '# 404a59') 

city, value = geo.cast(a) 

geo.add("", city, value, type - "heatmap", is visualmap - True, visual range - [10000, 
20000], visual text color- '# fff') 

geo 


使 用 pyecharts 也 可 创建 全 国 省 份 地 图 ,代码 如 下 : 


from pyecharts import Map 

city = list(data[ ' 省 份 ']) 

value = list(data[ ' 房 屋 均 价 ']) 

map = Map( width= 800, height = 600) 

map.add("", city, value, maptype - 'china', is label show - True, is visualmap - True, 
visual range = [5000, 60000], visual text color = '#000') 

map 


使 用 pyecharts 也 可 创建 指定 省 份 城市 图 ,代码 如 下 : 


from pyecharts import Map 

city = np.array(data[ Jil ']). tolist() 

value = np.array(data[ ' 房 屋 均 价 ']).tolist() 

map = Map( width- 800, height = 600) 

map. add("", city, value, maptype = 'J Æ ', is label show- True, is visualmap = True, visual | 
range = [10000, 20000],visual text color- '#000') 
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从 上 面 的 各 种 图 形 中 可 以 看 出 ,使 用 pyecharts 作 的 图 确实 和 
分 析 展 示 图 的 时 候 ,可 以 尝试 使 用 pyecharts 进行 作 图 ,然后 将 这 些 


告 里 ,从 而 提高 报告 的 展现 力 。 


3.8 stats 简单 统计 分 析 


RE 
些 图 


亮 ,以 后 做 数据 
片 放 到 PPT 报 


Python 虽然 不 像 R 语言 那样 , 专 为 统计 而 生 , 但 是 它 也 可 以 进行 统计 分 析 与 检 
验 。scipy 库 中 的 stats 包 就 能 实现 大 多 数 的 统计 功能 。 
学 生 的 考试 成 绩 会 受到 多 种 因素 的 影响 ,如 : 是 否 分 场 、 试 卷 难 易 程度 和 临场 发 
挥 情况 。 本 次 仅 考 虑 “是 否 分 场 ” 这 一 因素 。 下 面 以 北京 市 日 坛 实验 中 学 的 初 三 生物 


考试 成 绩 为 例 ,分 析 在 考场 合并 前 后 ,学 生 的 成 绩 有 无 显著 差异 。 


import pandas as pd 
import matplotlib. pyplot as plt 
from pylab import mpl 


mpl. rcParams[ 'font.sans— serif'] = ['SimHei'] 
mpl.rcParams['axes.unicode minus'] = False 


import os 
os. chdir( '/Users/zhaikun/Desktop') 
data = pd.read excel( ' 成 绩 . xls') 


下 面 预览 一 下 数据 ,如 图 3-31 Bron. 


In [4]: data.head() 
Out[4]: 
分 场 1 分 场 2 分 场 3 分 场 4 


# 指 定 默认 字体 
H 解决 保存 图 像 是 负 号 '- ' 显 示 为 方块 的 问题 


SHAS 合 场 Ate 合 场 3 合 场 期 中 


27 


» onto 
$8588 
& & & BB 
ES 
s 


30 


È RÈ å 


24 
38 
48 
36 
50 


37 


$8588 


图 3-31 初 三 生物 考试 成 绩 数据 预览 图 


首先 计算 出 每 个 分 场 的 考试 成 绩 平均 值 ,再 计算 合并 考场 之 后 的 成 绩 习 


码 如 下 所 示 。 


均值 , 代 
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data[ ' 分 场 平 均值 '] = data. ix[:,0:5].mean(1) 
data[ ' 合 场 平 均值 '] = data. ix[ :,5:9].mean(1) 
temp = data[[ ' 分 场 平均 值 '，' 合 场 平均 值 ']] 
temp. plot() 

plt.show() 


计算 考试 成 绩 平均 值 之 后 ,可 以 通过 可 视 化 ,查看 每 个 考生 的 成 绩 差异 ,结果 如 
图 3-32 所 示 。 


In [10]: temp.plot() 
plt.show() 


图 3-32 生物 考试 成 绩 差异 图 
由 图 3-32 可 以 发 现 , 合 并 考场 之 后 ,考试 平均 成 绩 明显 比分 场 考 试 平均 成 绩 高 。 
下 面 进行 “相关 样本 的 t 检 验 ”, 原 假设 是 样本 均值 相等 , 即 考生 在 考场 合并 前 后 
的 考试 成 绩 应 该 是 相等 的 。 代 码 如 下 所 示 ,得 到 的 结果 如 图 3-33 所 示 。 


from scipy import stats 
stats.ttest rel(temp[ ' 分 场 平均 值 ']，temp[ ' 合 场 平均 值 ']) 


In [11]: from scipy import stat: 
stats.ttest rel(temp[' amis 1, tempi ' 合 场 平均 值 ' ]) 


Out[11]: Ttest relResult(statistic--4. 0781602275865065, pvalue-0.0003406411787764341) 
图 3-33 t 检 验 结果 图 
从 计算 结果 中 ,可 以 发 现 P 一 0.05, 即 原 假设 不 成 立 ,就 是 考场 合并 前 后 ,考生 的 


考试 成 绩 均值 差异 显著 。 
stats 包 除 了 可 以 进行 + 检验 以 外 ,还 可 以 进行 卡 方 检验 、 方 差分 析 等 统计 上 常用 
的 检验 手段 ,这 里 不 进行 详细 介绍 , 感 兴趣 的 读者 可 自行 查阅 相关 资料 。 
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3.9 小 结 


本 章 主要 介绍 了 与 Python 语言 相关 的 实际 应 用 ,这 些 应 用 均 使 用 了 第 三 方 包 ， 
主要 包括 数据 的 连接 、. 词 云图 .社交 网 络 JSON 解析 .OCR 文字 识别 以 及 pyecharts 
绘图 等 。 通 过 这 些 实际 应 用 ,展示 了 Python 作为 “胶水 语言 "的 魅力 , 感 兴趣 的 读者 
可 以 查找 相关 资料 ,进行 进一步 的 学 习 与 探索 。 


什么 是 不 平衡 数据 ? 比如 ,10 万 个 普通 人 中 找 出 10 42 Ar T 410 万 个 正常 还 
款 的 客户 中 找 出 10 个 欺诈 客户 ,这 些 都 属于 不 平衡 数据 。 由 于 极 少数 异常 样本 可 能 
带 来 很 大 的 损失 ,在 工作 中 ,主要 任务 就 是 要 在 这 些 不 平衡 数据 中 找到 那些 占 比 极 少 
的 异常 样本 。 


4.1 逻辑 回归 交叉 验 证 与 欠 采 样 


首先 ,导入 包 和 加 载 数据 : 


import numpy as np 

import pandas as pd 

import matplotlib. pyplot as plt 
import seaborn as sns 

import warnings 
warnings.filterwarnings(" ignore") 
import os 

os. chdir( '../data') 

data 7 pd.read csv('data.csv') 


在 Jupyter Notebook 中 运行 代码 ,其 数据 预览 结果 如 图 4-1 所 示 o 
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18 2): datashend() 


Otia me — Ww — ww n o €- s w v vw ^". w w vw w 


s 
3 10 ames 1340182 17739 osamo osmo sowe CUPS! ozme isese ~ O2OWB DITS osenz osan cir 
3 10 030072 omes inea amon oom VM) ozmos osas isme  -DwUEXD OTE awasi -LUSSUS 08er 


20 asas oma isana oaos XO) osean ONE omas Omma _ Cosan CUP 23A DIM) -0300 


rows x31 columns 


12 (3): data.shape 
ceti 0284807，311 


图 4-1 data. csv 数据 预览 展示 图 


这 个 数据 集 是 284807 行 ,31 列 的 数据 。 


data['Class'].value counts() 
0 284315 

1 492 

Name: Class, dtype: int64 


目标 变量 'Class ' 非 常 不 平衡 ,异常 客户 数据 只 有 492 个 ,异常 占 比 为 492 + 
284807 —1. 7396, 
先 对 变量 列 'Amount', 'Time' 进 行 标准 化 处 理 。 


from sklearn. preprocessing import StandardScaler 
sc = StandardScaler() 
data[['Amount', 'Time']] = sc.fit transform(data[[ 'Amount', 'Time']]) 


AL ARE BSA AS EIT EE fa] Ak BE , if] EL EKA EH ISLUH SE BE oe TR o 


allFeatures = list(data. columns) 

allFeatures. remove( 'Class') 

X 7 data[allFeatures] 

y = deata[ 'Class'] 

from sklearn.cross validation import train test split as sp 

X train, X test, y train, y test = sp(X, y, test size- 0.3, random state-1) 

from sklearn.linear model import LogisticRegression as LR 

lr = LR() 

lr.fit(X train, y train) 

from sklearn import metrics 

y test label = lr.predict(X test) 

y test value - lr.predict proba(X test)[:, 1] 

print(" 测 试 集 准确 率 是 : {:.2% )". format(metrics.accuracy score(y test, y test label))) 
print(" 测 试 集 AUC Æ: (:.4]".format(metrics.roc auc score(y test, y test value))) 
from sklearn.metrics import classification report 

print(classification report(y test, y test label)) 
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© 
运行 结果 如 下 : 


测试 集 准确 率 是 : 99.92% 
测试 集 AUC 是 : 0.9657 
precision recall fl- score support 


0 1.00 1.00 1.00 85308 
a 0.84 0.58 0.68 135 
avg / total 1.00 1.00 1.00 85443 


看 起 来 效果 还 不 错 ,但 是 能 进行 优化 吗 ? 

这 里 ,首先 要 明白 目标 是 什么 ? 衡量 分 类 器 的 主要 指标 是 什么 ? 在 这 个 不 平衡 的 
异常 样本 检测 案例 中 ,衡量 的 指标 主要 是 recall, 以 此 来 衡量 ,模型 表现 显然 不 是 很 好 。 

那么 关于 不 平衡 样本 ,可 以 试 试 欠 采 样 的 方法 。 这 里 要 使 用 到 第 三 方 包 imblearn. 


安装 语句 为 : pip install imblearn。 


allFeatures = list(data.columns) 

allFeatures. remove( 'Class') 

X = data[allFeatures] 

y = data['Class'] 

n pos sample = y[y == 0].shape[0] 

n neg sample = y[y == 1].shape[0] 

from imblearn.under sampling import RandomUnderSampler 
rus = RandomUnderSampler(ratio = (0:(4 * n neg sample),1:(n neg sample)],random state = 1) 
X, y = rus.fit sample(X, y) 

data X = pd.DataFrame(X, columns = [allFeatures]) 
data y = pd.DataFrame(y, columns = [ 'target']) 

data - pd.concat([data X,data y], axis- 1) 


在 这 个 重新 构成 的 新 样本 中 ,目标 变量 target 的 水 平分 布 是 : 


data[ 'target']. value_counts() 
0 1968 

1 492 

Name: target, dtype: int64 


下 面 重新 建 模 : 
X = data[allFeatures] 
y = data[ 'target'] 


from sklearn.cross validation import train test split as sp 
X train, X test, y train, y test = sp(X, y, test size- 0.3, random state- 1) 
from sklearn.linear model import LogisticRegression as LR 
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lr = LR() 

lr.fit(X train, y train) 

from sklearn import metrics 

y test label = lr.predict(X test) 

y test value - lr.predict proba(X test)[:, 1] 

print(" 测 试 集 准 确 率 是 ::.2% )". format(metrics.accuracy score(y test, y test label))) 
print ("jit AUC JÉ:(:.4]".format(metrics.roc auc score(y test, y test value))) 
from sklearn.metrics import classification report 

print(classification report(y test, y test label)) 


运行 结果 如 下 : 


测试 集 准确 率 是 :97.15% 
测试 集 AUC 是 :0. 9805 


precision recall fl- score support 


0 0.97 1.00 0.98 588 
1 0.98 0.87 0.93 150 
avg / total 0.97 0.97 0.97 738 


召回 率 recall 是 0. 87 ,模型 表现 有 了 很 大 的 提升 。 
下 面 再 试 试 5 折 交 叉 验 证 : 


from sklearn.cross validation import KFold 
from sklearn.metrics import recall score 
fold = KFold(len(y train), 5, shuffle- False) 
c param range = [0.01, 0.1, 1, 10, 100] 
results table = pd.DataFrame(columns = ['C 值 '，' 平 均 召 回 率 得 分 7]) 
results_table[ 'C 值 '] = c param range 
j = 0 
for c param in c param range: 
print('C ffi: ', c param) 
recall accs = [] 
for iteration, indices in enumerate(fold, start =1): 
lr = LR(C = c param, penalty = '11') 
X train = X_train. reset_index(drop = True) 
y_train = y train. reset_index(drop = True) 
lr.fit(X train. iloc[indices[0],:], y train. iloc[ indices[0]]. values. ravel()) 
y pred = lr.predict(X train. iloc[ indices[1], :]. values) 
recall acc = recall score(y train. iloc[indices[1]].values, y pred) 
recall accs.append(recall acc) 
print(' 和 迭代 次 数 '，iteration, ': 召 回 率 得 分 = ', recall acc) 
results_table. ix[j，' 平 均 召回 率 得 分 '] = np.mean(recall accs) 
jt=1 
print( 平均 召回 率 得 分 : ', np. nean(recall accs)) 
best c = results table.loc[results table[ 平均 召回 率 得 分 ']. idxmax()]['C 值 '] 
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print( 交叉 验证 最 好 的 C 值 是 ,best_c) 


C 值 :0.01 

迭代 次 数 1: 召 回 率 得 分 = 0.7972972972972973 
ARKA 2: 召 回 率 得 分 = 0.8769230769230769 
迭代 次 数 3: 召 回 率 得 分 = 0.875 

迭代 次 数 4: 召 回 率 得 分 = 0.7878787878787878 
迭代 次 数 5: 召 回 率 得 分 = 0.8461538461538461 
平均 召回 率 得 分 :0.8366506016506016 

C 值 :0.1 

和 迭代 次 数 1: 召 回 率 得 分 = 0.8243243243243243 
和 迭代 次 数 2: 召 回 率 得 分 = 0.9076923076923077 
和 迭代 次 数 :3: 召 回 率 得 分 = 0.875 

迭代 次 数 :4: 召 回 率 得 分 = 0.8484848484848485 
迭代 次 数 5: 召 回 率 得 分 = 0.8615384615384616 
平均 召回 率 得 分 :0.8634079884079885 

C 值 :1 

和 迭代 次 数 1: 召 回 率 得 分 = 0.8243243243243243 
迭代 次 数 2: 召 回 率 得 分 = 0.9230769230769231 
迭代 次 数 3: 召 回 率 得 分 = 0.875 

迭代 次 数 4: 召 回 率 得 分 = 0.8484848484848485 
迭代 次 数 5: 召 回 率 得 分 = 0.8923076923076924 
平均 召回 率 得 分 :0.8726387576387576 

c ffi :10 

迭代 次 数 1: 召 回 率 得 分 = 0. 8378378378378378 
和 迭代 次 数 2: 召 回 率 得 分 = 0.9230769230769231 
迭代 次 数 3: 召 回 率 得 分 = 0.8888888888888888 
迭代 次 数 4: 召 回 率 得 分 = 0.8787878787878788 
迭代 次 数 5: 召 回 率 得 分 = 0.8923076923076924 
平均 召回 率 得 分 :0.8841798441798442 

C fli :100 

迭代 次 数 1: 召 回 率 得 分 = 0.8378378378378378 
迭代 次 数 2: 召 回 率 得 分 = 0.9230769230769231 
迭代 次 数 3: 召 回 率 得 分 = 0.8888888888888888 
迭代 次 数 :4: 召 回 率 得 分 = 0.8787878787878788 
和 迭代 次 数 5: 召 回 率 得 分 = 0.8923076923076924 
平均 召回 率 得 分 :0.8841798441798442 

交叉 验证 最 好 的 C 值 是 10.0. 


下 面 把 用 交叉 验证 找到 的 C 值 用 于 模型 中 , 先 用 从 采样 后 的 数据 训练 模型 ,再 把 
训练 好 的 模型 用 于 原始 数据 。 


lr = LR(C = best c, penalty = '11') 
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1r.fit(X train, y train) 

data = pd.read csv('data.csv') 
allFeatures - list(data.columns) 
allFeatures. remove( 'Class') 

X = data[allFeatures] 

y = datal[ 'Class'] 

y_label = Ir. predict(X) 
print(classification report(y, y label)) 


运行 结果 如 下 : 


precision recall fl- score support 


0 1.00 0.99 1.00 284315 
1 0.17 0.89 0.29 492 
avg / total 1.00 0.99 1.00 284807 


召回 率 recall 有 很 大 的 提升 ,达到 了 0. 89。 


y value = lr.predict proba(X)[:, 1] 
print("AUC Jt: (:.4)".format(metrics.roc auc score(y, y value))) 


运行 结果 如 下 : 

AUC 是 :0.9855 

可 以 看 出 模型 的 表现 很 好 。 

在 这 个 不 平衡 样本 案例 中 ,可 以 学 到 以 下 两 点 。 


CD. 在 不 平衡 的 数据 集中 ,准确 率 不 再 是 衡量 的 指标 。 根 据 场景 的 不 同 ,衡量 指 
标 可 能 是 racall, 也 可 能 是 precision ,还 可 能 是 fl-score, 不 要 仅 局 限于 auc 和 ks. 

(2) 对 不 平衡 数据 集 , 可 以 采用 过 采样 或 从 采样 的 方法 ,训练 出 在 平衡 样本 ( 采 
样 之 后 的 样本 ) 下 的 模型 ,然后 把 模型 用 于 原始 的 不 平衡 数据 中 。 


4.2 基于 分 布 的 异常 样本 识别 


除了 欠 采 样 的 异常 样本 识别 ,还 可 以 根据 变量 取 值 的 分 布 情况 ， 
进行 异常 样本 识别 ,代码 如 下 : 
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import numpy as np 

import pandas as pd 

import matplotlib. pyplot as plt 

import seaborn as sns 

import warnings 

warnings. filterwarnings("ignore") 

import os 

os. chdir(',./data') 

dataset = pd.read csv('data.csv') 

”连续 单 变量 密度 分 布 图 '” 

col = ['Amount', 'Time'] 

for i in col: 
plt.figure(figsize - (5,5)) 
sns. distplot(dataset[i].dropna()) 
plt. show() 


运行 结果 如 图 4-2 所 示 。 
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图 4-2 Amount 和 Time 变量 的 密度 分 布 图 
从 图 4-2 中 可 以 看 出 数据 分 布 明显 是 偏 斜 的 ,那么 作 变量 进行 对 数 转 换 。 


dataset['Amount'] = np.log(dataset['Amount'] + 1) 
dataset['Time'] = np.log(dataset['Time'] + 1) 


对 数 转 换 后 的 分 布 图 ,如 图 4-3 所 示 o 
先 来 回顾 一 下 目标 变量 水 平分 布 。 


dataset[ 'Class']. value_counts() 
0 284315 

ni 492 

Name: Class, dtype: int64 
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图 4-3 Amount ffl Time 变量 的 对 数 密度 分 布 图 


由 目标 变量 水 平分 布 可 以 看 出 ,Class 等 于 1 的 样本 数 占 比 为 492 + 284807 ~ 


0. 1727% ,是 严重 不 平衡 数据 。 


下 面 进行 数据 集 切 分 : 


normal = dataset[dataset[ 'Class'] == 0] 

anomaly = dataset[dataset['Class'] == 1] 

from sklearn.model selection import train test split as sp 
train, test - sp(normal, test size- 0.2) 

normal valid, normal test - sp(test, test size- 0.5) 
anormal valid, anormal test - sp(anomaly, test size- 0.5) 


train 
valid 
valid 
test 
test 


train.reset index(drop - True) 

pd.concat([normal valid, anormal valid]) 

valid. reset_index(drop = True) 
pd.concat([normal test, anormal test]) 
test. reset_index(drop = True) 


看 一 下 各 数据 集 形 状 : 


train. shape # (227452, 31) 
valid. shape * (28677, 31) 
test. shape * (28678, 31) 


P E E E E E E 
# Step 1: 基 于 高 斯 分 布 的 无 监督 异常 值 检测 
BEBBBBBRRESSSUEEURRUBERRHEREEEUEEUUBUREHHHAHAE 并 林 林 并 亲民 并 并 并 
”计算 协 方差 矩阵 和 均值 '” 

from scipy.stats import multivariate normal 

mu = train.drop('Class', axis = 1). mean(axis = 0). values 

sigma = train.drop('Class', axis = 1).cov(). values 
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# ”多 元 正 态 分 布 ,指定 协 方差 ,均值 , RSH ee 

model = multivariate normal(cov= sigma, mean- mu, allow singular = True) 

* ”logpdf: 概 率 密度 函数 对 数 

print(np. median(model. logpdf (valid[valid[ 'Class'] == 0]. drop( 'Class', axis = 1).values))) 
print(np.median(model.logpdf(valid[valid['Class'] == 1].drop('Class', axis=1).values))) 


运行 结果 如 下 : 


— 33.91079260533387 
一 716.0503164497757 


这 里 解释 一 下 上 面 代码 的 含义 。 

* multivariate normal 是 多 元 正 态 分 布 ,指定 协 方差 ,均值 ,同时 允许 奇异 协 方 
AEE, mu 是 训练 集 的 均值 ,sigma 是 训练 集 的 协 方差 。 

* logpdf 是 计算 概率 密度 函数 的 对 数 , 这 里 打印 出 中 位 数 ,方便 指定 下 面 代码 中 
的 阔 值 范围 。 


"计算 不 同 阔 值 下 的 recall score.precision score 和 fbeta score''"' 
from sklearn.metrics import recall score, precision score, fbeta score 
tresholds = np.linspace( - 1000, - 10, 150) 
scores = [] 
for treshold in tresholds: 
y valid lable = (model. logpdf(valid.drop('Class', axis = 1)) < treshold).astype(int) 
scores. append([recall_score(valid[ 'Class'], y valid lable), precision score(valid 
[ 'Class'], 
y valid lable),fbeta score(valid['Class'], y valid lable, beta- 2)]) 
Scores = np.array(scores) 
print(scores[:, 2].max(), scores[:, 2].argmax()) 


这 里 解释 一 下 各 分 数 ,recall_score 是 计算 召回 率 分 数 ,precision_score 是 计算 命 
中 率 分 数 ,fbeta_score 是 精度 和 召回 率 的 加 权 调 和 平均 值 。 
运行 结果 如 下 : 


0.7723250201126307 110 


nf gite dfi F ÉY recall_score、precision_score 和 fbeta_score, 代 码 如 下 。 


”可视化 不 同 阔 值 下 的 recall_score,precision_score 和 fbeta score''' 
plt.plot(tresholds, scores[:, 0], label- '$ Recall$ ') 
plt.plot(tresholds, scores[:, 1], label- '$ Precision$ ') 
plt.plot(tresholds, scores[:, 2], label- '$F 2$ ') 
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plt. ylabel( 'Score') 
plt.xlabel( Threshold') 
plt. legend(loc = 'best') 
plt. show() 


可 视 化 结果 如 图 4-4 所 示 。 
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图 4-4 不 同 阔 值 下 的 recall; precision, f2 可 视 化 图 


”计算 测试 集 评 价 标准 '”' 

final tresh = tresholds[scores[:, 2].argmax()] 

y test label = (model.logpdf(test.drop('Class', axis = 1). values) < final tresh).astype 
(int) 

print(' 最 终 阔 值 是 :$%d' & final tresh) 

print( ' 测 试 集 召 回 率 分 数 是 : % .3f' % recall score(test['Class'], y test label)) 

print( ' 测 试 集 命中 率 率 分 数 是 : % .3f' % precision score(test['Class'], y test label)) 
print( ' 测 试 集 F2 分 数 是 : % .3f' % fbeta score(test['Class'], y test label, beta=2)) 


最 终 阔 值 是 : - 269 

测试 集 召回 率 分 数 是 :0.772 
测试 集 命中 率 分 数 是 :0.704 
测试 集 F2 分 数 是 :0.758 


混淆 矩阵 可 视 化 ,代码 如 下 。 


… 混 清和 矩阵 可 视 化 

import itertools 

from sklearn. metrics import confusion matrix 

def plot confusion matrix(cm,classes,title = ' 混 清和 矩阵 ,cmap = plt. cm. Blues): 
plt. imshow(cm, interpolation= 'nearest', cmap - cmap) 
plt.title(title) 
plt.colorbar() 
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tick marks = np.arange(len(classes)) 
plt.xticks(tick marks, classes, rotation = 0) 
plt.yticks(tick marks, classes) 
thresh = cm.max() / 3. 
for i, j in itertools. product(range(cm. shape[0]), range(cm. shape[1])): 
plt.text(j, i, cm[i, j], horizontalalignment = "center", color = "white" if cm[i, j] > 
thresh else "black") 
plt.tight layout() 
plt. ylabel( 实际 ) 
plt. xlabel( ' 预 测 ') 
cnf matrix = confusion matrix(test['Class'], y test label) 
class names - [0,1] 
plot confusion matrix(cnf matrix, classes - class names) 


运行 结果 如 图 4-5 所 示 。 
混淆 矩阵 


25000 


80 
20000 
15000 
10000 
1 56 190 
5000 
0 1 
预测 
图 4-5 混淆 和 矩阵 图 


整体 来 说 ,样本 的 召回 率 效 果 还 是 不 错 的 ,在 这 个 极度 不 平衡 的 数据 集中 ,找到 
了 190 个 异常 样本 。 


FEBBRBEHBHUHEHHEREHEHUHEHHEEEEEEEUUEHEEREEHEHUPUAUE UAE 

* Step 2: 基 于 混合 高 斯 模型 的 无 监督 异常 值 检测 
PEBBERHUBHUUEHHEERHEEHUEEHEEEEEEEUUEHEEREREEHUPEUUUUU HE 

OB RR n 

from sklearn.mixture import GaussianMixture 

gmm = GaussianMixture(n components -3, n init- 4, random state- 1) 

gnn. fit(train. drop( 'Class', axis = 1). values) 
print(gmm.score(valid[valid['Class'] == 0].drop('Class', axis = 1). values) ) 
print(gmm. score(valid[valid[ 'Class'] == 1].drop('Class', axis = 1). values) ) 


运行 结果 如 下 : 


6.8138687337843695 
— 132514. 22047425093 
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下 面 的 方法 、 原 理 与 高 斯 模型 一 致 


"计算 不 同 阔 值 下 的 recall_score、precision_score 和 fbeta score''"' 
tresholds = np.linspace( - 140000, 20, 1000) 
scores = [] 
y pred score = gmm.score samples(valid.drop('Class', axis = 1). values) 
for treshold in tresholds: 

y valid lable = (y pred score < treshold).astype(int) 

scores. append([recall_score(valid[ 'Class'], y valid lable), precision score(valid 
['Class'], 

y valid lable), fbeta score(valid['Class'], y valid lable, beta=2)]) 

Scores = np.array(scores) 
print(scores[:, 2].max(), scores[:, 2].argmax()) # fbeta IRA 0.81, RIIE 68 
”可视化 不 同 阔 值 下 的 recall score.precision score 和 fbeta score''' 
plt.plot(tresholds, scores[:, 0], label= '$ Recall $ ') 
plt.plot(tresholds, scores[:, 1], label- '$ Precision$ ') 
plt.plot(tresholds, scores[:, 2], label- '$F 2$ ') 
plt. ylabel('Score') 
plt. xlabel (‘Threshold’) 
plt. legend( loc = 'best') 
plt. show() 
EPFL RIE TE MRE 
final tresh = tresholds[scores[:, 2]. argmax()] 
y_test_label = (gmm. score_samples(test. drop('Class', axis = 1). values) < final tresh). 
astype( int) 
print(' 最 终 阔 值 是 :%d' % final tresh) 
print ( ' 测 试 集 召 回 率 分 数 是 : % .3f' € recall score(test['Class'], y test label)) 
print ( ' 测 试 集 命中 率 率 分 数 是 : % .3f' % precision score(test['Class'], y test label)) 
print( ' 测 试 集 F2 分 数 是 : % .3f' % fbeta score(test['Class'], y test label, beta = 2)) 
cnf matrix = confusion matrix(test['Class'].values, y test label) 
plot confusion matrix(cnf matrix, classes - class names) 


最 终 运 行 结果 如 图 4-6 所 示 。 
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图 4-6 混合 高 斯 模型 下 的 相关 结果 展示 图 
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下 面 再 介绍 孤立 森林 和 直方 图 的 异常 值 检 测 方法 ,代码 如 下 : 


BERRERBRÉUSHEESHBERREUERUUEREEEREEERREEREEUHEBUREEUAR 
# Step 3: 基 于 孤立 森林 的 无 监督 异常 值 检测 
提 # 节 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 
SE ABEL” 
from sklearn. ensemble import IsolationForest 
model = IsolationForest(n_estimators = 50, bootstrap = True, max_samples = train. shape[0], 
n jobs = 4, random state- 1) 

model. fit(train. drop( 'Class', axis = 1).values) 
print(model.decision function(valid[valid['Class'] == 0].drop('Class', axis = 1). values). 
nean()) 
print(model.decision function(valid[valid['Class'] == 1].drop('Class', axis = 1). values). 
nean()) 
"HERE [Fl BUH F WY recall score,.precision score 和 fbeta score''' 
tresholds = np.linspace( - 0.2, 0.2, 200) 
scores = [] 
y pred score = model.decision function(valid.drop('Class', axis = 1).values) 
for treshold in tresholds: 

y valid lable = (y pred score < treshold).astype(int) 

Scores.append([recall score(valid[ 'Class'], y valid lable), precision score(valid[ Class'], 

y valid lable), fbeta score(valid['Class'], y valid lable, beta=2)]) 
Scores - np.array(scores) 
print(scores[:, 2].max(), scores[:, 2].argmax()) 
"可 视 化 不 同 阔 值 下 的 recall score,precision score 和 fbeta score''' 
plt.plot(tresholds, scores[:, 0], label= ' $ Recall$ ') 
plt.plot(tresholds, scores[:, 1], label- '$ Precision$ ') 
plt.plot(tresholds, scores[:, 2], label- '$F 2$ ') 
plt. ylabel('Score') 
plt. xlabel( Threshold') 
plt. legend(loc = 'best') 
plt. show() 
EPFL LATE Bt a HE" 
final tresh = tresholds[scores[:, 2]. argmax()] 
y test label = (model. decision_function(test. drop( 'Class', axis = 1).values)< final tresh). 
astype( int) 

print(' 最 终 阔 值 是 :%d' % final_tresh) 
print(' 测 试 集 召回 率 分 数 是 : % .3f' % recall score(test['Class'], y test label)) 
print ( ' 测 试 集 命中 率 率 分 数 是 : & .3f' % precision score(test['Class'], y test label)) 
print( ' 测 试 集 F2 分 数 是 : % .3f' #% fbeta_score(test['Class']，Y_test_label，beta= 2)) 
cnf matrix = confusion matrix(test['Class'].values, y test label) 
plot confusion matrix(cnf matrix, classes = class names) 


运行 结果 如 图 4-7 所 示 。 


BERRBSEEUEUHUBBBURERERURUEERUUEUEEREEERUUURUAUEEEH A HE 
* Step 4: 基于 直方 图 的 异常 值 检测 
BERBBSEUUHHABBBHRRREEREEEERUUEEEEREEEEAUUABUAEHEE HH E 


AO 
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A 


"直方 图 探索 AE eT ao RO FE, (HB EKA" 
class hist model(object): 
def ^ init (self, bins = 50): 
self.bins - bins 
def fit(self, X): 
bin hight, bin edge - [], [] 
for var in X. T: 
bh, bedge = np.histogram(var, bins = self. bins) 
bin hight. append(bh) 
bin edge. append(bedge) 
self.bin hight - np.array(bin hight) 
self. bin edge = np.array(bin edge) 
def predict(self, X): 
scores = [] 
for obs in X: 
obs score = [] 
for i, var in enumerate(obs): 
bin num = (var > self.bin edge[i]).argmin()- 1 
obs score.append(self.bin hight[i, bin num]) 
Scores. append(np. mean(obs score)) 
return np. array(scores) 
model - hist model() 
# ”为 每 个 特征 建立 直方 图 ,将 bin 的 高 度 合 并 为 分 数 ,如 果 分 数 很 低 ,说 明 异 常 


model.fit(train.drop('Class', axis = 1).values) 


print(np. median (model. predict (valid[valid[ 'Class'] == 0]. drop( 'Class', axis = 1). 
values) ) ) 
print(np. median (model. predict (valid[valid[ 'Class'] 1]. drop( 'Class', axis = 1). 


values))) 
‘OHAR [STR F WY recall score.precision score 和 fbeta score''' 
tresholds = np.linspace(10000, 80000, 100) 
scores = [] 
y pred score = model.predict(valid.drop('Class', axis = 1). values) 
for treshold in tresholds: 
y valid lable = (y pred score < treshold).astype(int) 
Scores.append([recall score(valid['Class'], y valid lable), precision score(valid[ Class'], 
y valid lable), fbeta score(valid[ 'Class'], y valid lable, beta -2)]) 
Scores 7 np.array(scores) 
print(scores[:, 2].max(), scores[:, 2].argmax())  £fbeta 最 大 为 0.42, 索 引 是 42 
可视化 不 同 阔 值 下 的 recall score,.precision score 和 fbeta score''' 
plt.plot(tresholds, scores[:, 0], label = '$ Recall $ ') 
plt.plot(tresholds, scores[:, 1], label = '$ Precision $ ') 
plt.plot(tresholds, scores[:, 2], label- '$F 2$ ") 
plt. ylabel( 'Score') 
plt. xlabel( Threshold') 
plt. legend(loc = 'best') 
plt. show() 
”计算 测试 集 评价 标准 '” 


Score 
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final tresh = tresholds[scores[:, 2].argmax()] 

y test label = (model. predict(test.drop('Class', axis- 1). values) < final tresh).astype(int) 
print(' 最 终 阔 值 是 :$%d' & final tresh) 

print( ' 测 试 集 召回 率 分 数 是 : % .3f' % recall score(test['Class'], y test label)) 

print( ' 测 试 集 命 中 率 率 分 数 是 : % .3f' € precision score(test['Class'], y test label)) 
print( ' 测 试 集 F2 分 数 是 : €.3f' % fbeta_score(test['Class'], y_test_label, beta = 2)) 

cnf matrix = confusion matrix(test[ 'Class']. values, y test label) 

plot confusion matrix(cnf matrix, classes = class names) 


RE 
10 
25000 
08 0 195 
20000 
06 
" 15000 
x 
04 
- 10000 
a 186 
02 | — Recall —- 
—— Precision 
0.0 是 
-0.20 -0.15 -0.10 -005 0.00 005 010 015 020 9 ? 
Threshold 预测 


图 4-7 孤立 森林 模型 下 的 相关 结果 展示 图 


和 结果 如 图 4-8 所 示 。 


混淆 矩阵 
25000 
683 
20000 
" 15000 
E 
| 10000 
1 107 139 
| 5000 


预测 
图 4-8 直方 图 异常 检测 模型 下 的 相关 结果 展示 图 


最 后 介绍 基于 SVM 的 异常 值 检测 。 
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HERRERRAESA AERA AREAS ESA AE SESEEEREEE RAS SAR SABES R SERRE 
# Step 5: 基 于 SVM 的 异常 值 检 测 
PBERBRÉPRSREPURBEHHBEHRBERREEEREEEREEEREEUEREEEREUURUEU AR 
”一 类 svm, 用 于 异常 值 检测 '… 

from sklearn. svm import OneClassSVM 

model = OneClassSVM() 

model.fit(train.drop('Class', axis = 1).values) 


print(model.decision function(valid[valid['Class'] == 0].drop('Class', axis=1).values). 
mean()) 
print(model.decision function(valid[valid['Class'] == 1].drop('Class', axis = 1). values). 
nean()) 


"SERE IRI T AS recall score.precision score 和 fbeta score''' 
tresholds = np.linspace( - 50000, - 400, 500) 
scores - [] 
y pred score = model.decision function(valid.drop('Class', axis = 1). values) 
for treshold in tresholds: 
y valid lable = (y pred score < treshold).astype(int) 
Scores.append([recall score(valid['Class'], y valid lable), precision score(valid[ 'Class'], 
y valid lable), fbeta score(valid['Class'], y valid lable, beta = 2)]) 
Scores = np.array(scores) 
print(scores[:, 2].max(), scores[:, 2].argmax())  £fbeta 最 大 为 0.81, 索 引 是 68 
”可视化 不 同 阔 值 下 的 recall score.precision score 和 fbeta score''' 
plt.plot(tresholds, scores[:, 0], label= '$ Recall $ ') 
plt.plot(tresholds, scores[:, 1], label = ' $ Precision$ ') 
plt.plot(tresholds, scores[:, 2], label- '$F 2$ ') 
plt. ylabel( 'Score') 
plt. xlabel( Threshold') 
plt. legend(loc = 'best') 
plt. show() 
EPFL RTE RE 
final tresh = tresholds[scores[:, 2]. argmax() ] 
y test label = (model. decision function(test. drop( 'Class’, axis = 1). values)< final tresh). 
astype( int) 
print ( i BY {(iJé : %d' & final tresh) 
print(' 测 试 集 召 回 率 分 数 是 : % .3f' % recall score(test['Class'], y test label)) 
print ( ' 测 试 集 命中 率 率 分 数 是 :% .3f' % precision_score(test[ 'Class'], y_test_label) ) 
print( ' 测 试 集 F2 分 数 是 : % .3f' & fbeta score(test['Class'], y test label, beta= 2)) 
cnf matrix = confusion matrix(test[ 'Class']. values, y test label) 


plot confusion matrix(cnf matrix, classes = class names) 


SVM 最 大 的 缺陷 是 在 大 数据 集 上 计算 的 过 程 较为 缓慢 ,所 以 建议 慎 用 。 
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4.3 小 结 


在 日 常 工作 中 ,会 经 常 碰 到 不 平衡 样本 。 一 般 来 说 ,建立 模型 所 需要 的 坏 样本 比 
例 最 好 在 20% 以 上 。 如 果 坏 样本 比例 1% 以 上 ,可 以 考虑 过 采样 / 欠 采 样 ; 如 果 坏 样 
本 比例 1% 以 下 ,可 以 考虑 以 上 基于 分 布 的 异常 值 检测 方法 。 但 要 注意 以 下 两 点 。 

CD 数据 质量 决定 模型 效果 。 数 据 质量 不 好 的 话 , 建 模 效 果 也 不 会 太 理想 。 

(2) 不 平衡 样本 哪怕 再 怎么 用 技巧 ,有 时 候 模型 效果 也 会 很 不 理想 。 模 型 不 是 
万 能 的 ,也 不 会 有 某 个 算法 是 万 能 的 ,最 应 该 做 的 是 将 模型 与 具体 业务 进行 结合 ,使 
模型 真正 发 挥 实际 作用 。 
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自然 语言 处 理 案例 一 一 电 商 评论 


视频 讲解 


自然 语言 处 理 通常 用 于 分 词 、 搜 索 、 模 糊 匹 配 、 正 
则 表达 式 , 词 云 , 情 感 分 析 ; 深 一 些 来 说 ,自然 语言 处 理 一 般 与 语音 识别 结合 在 一 起 ， 
用 深度 学 习 神 经 网 络 训 练 ,结合 语料库 ,进行 语义 分 析 、 人 机 问答 

本 章 主要 通过 电 商 评论 案例 来 讲解 自然 语言 的 实际 应 用 。 


5.1 数据 加 载 与 预 处 理 


import numpy as np 

import pandas as pd 

import matplotlib. pyplot as plt 
import seaborn as sns 

import warnings 

warnings. filterwarnings(" ignore") 
import os 

os. chdir('. . /data/# FPF HE ") 

df - pd.read csv("comment. csv") 
df. head() 


数据 预览 结果 如 图 5-1 所 示 。 


| #5% “自然 语言 处 理 案例 一 一 电 商 评论 (85 


In [3]: df.head() 


estin Unnamed: Clothing "n n" Recommended. Positive Division Department Class 
o D Ae = mt IND Feedback Count. Name Name Name 
EET 
o o ws m ee y 1 O titrant Hirn 
+ - x POE dir QN 1 4 ome Dee Dum 
‘Some major | had such high hopes for this dress 
2 2 wm o Some qum g o o mei omes Dwane 
3 a 34 so nyiso NOONE eames 1 EL ts po 
站 6 ommi e Dom 


图 5-1 电 商 评论 数据 预览 展示 图 


由 图 5-1 可 以 发 现 第 1 列 也 是 序号 列 ,与 数据 自动 创建 的 索引 重复 ,所 以 删除 
第 1 列 。 


df, drop(df.columns[0]，inplace= True, axis - 1) HS 1 列 


该 数据 集 各 特征 列 是 英文 ,在 这 里 使 用 renameO 函数 将 列 名 重 命 名 为 中 文 名 。 


new col = ('Clothing ID':' 服 装 id’, ‘Age’: ' 评 论 者 年 龄 '，'Title': ' 评 论 标题 '， 
"Review Text': PÉiE 3E ', ‘Rating’: ' 服 装 评分 '，'Recommended IND': "是否 推荐 '， 
"Positive Feedback Count’: ' 赞 同 该 评论 的 人 数 '，'Division Name’: 产品 高 级 分 类 '， 
"Department Name': ' 产 品 大 类 '，'Class Name': "产品 二 级 分 类 '} 

df = df.rename(columns = new col) HEMA 

df. head() 


再 次 预览 数据 ,如 图 5-2 所 示 。 


In [2]: df. head() 


Out [2]: 


my "ep ees ve MOD "nm ruan np D 
0 7 m e once Anc rrr MNT NT O Initmates inmate Intimates 
1 1080 34 NaN eth sen eee 5 1 4 General Dresses Dresses 
2 107 — 6 rubei disci E e ECT. O General Dresses Dresses 
3 1049 50 — My favorite buy! JORDAN MAE E 5 1 o Seneral Bottoms Pants 
4 B7 — 47 — Felemgsni TMS SHITIS very fattening to atdue S, 6 General ^ Tops Blouses, 


图 5-2 电 商 评论 数据 重 命名 后 的 预览 展示 图 


使 用 missingno 包 预 览 缺 失 值 。 


import missingno 
missingno. matrix(df, fontsize = 25) 井 缺 失 值 可 视 化 
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缺失 值 可 视 化 结果 如 图 5-3 所 示 。 


图 5-3 数据 缺失 值 可 视 化 图 
由 图 5-3 可 以 发 现 评论 内 容 有 缺失 值 , 那 么 删除 缺失 值 。 


col = [" 评 论 内 容 "] 
df = df.dropna(subset = [col]) # 删 除 缺失 值 


可 以 做 一 些 特 征 衍 生 的 工作 ,在 这 里 创建 了 新 特征 : 评论 字数 。 


df[ ' 评 论 内 容 '] .astype(str) 
df[ ' 评 论 内 容 '].apply(len) # 计 算 字 符 串 总 长 度 


df[ ' 评 论 内 容 '] 
df[ ' 评 论 字 数 '] 


5.2 数据 可 视 化 


为 了 查看 不 同 变 量 与 评分 之 间 的 关系 ,可 以 使 用 可 视 化 进行 展示 。 


""' 评 分 与 字数 关系 的 可 视 化 1" 

g = sns.FacetGrid(data = df, col = ' 服 装 评分 ') 
g. map(plt. hist，' 评 论 字 数 '，bins = 50) 

plt. show() 


结果 如 图 5-4 所 示 。 
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服装 评分 =1 服装 评分 =2 服装 评分 =3 服装 评分 =4 服装 评分 =5 
2000 
1500 
1000 

500 ] 
" a Lt | mE NN —— an] 
D 200 — 40 D 200 40 0 200 400 0 200 400 D 20 — 400 
评论 字数 评论 字数 eH ibit 评论 字数 


5-4 ”服装 评分 与 评论 字数 的 可 视 化 图 (1) 


""' 评 分 与 字数 关系 的 可 视 化 2'"" 
sns. pointplot(x- ' 服 装 评分 ',， y= ' 评 论 字数 '，data = df) 
plt.show() 


结果 如 图 5-5 所 示 。 
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320 
Fi 315 
= 
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300 
295 


maine 
图 5-5 ”服装 评分 与 评论 字数 的 可 视 化 图 (2) 
由 图 5-4 可 以 发 现 ,评分 越 高 , 写 评论 的 人 就 越 多 。 由 图 5-5 可 以 发 现 ,就 平均 字 
数 而 言 ,评分 为 3 的 人 最 喜欢 写 长 评论 。 


""' 找 出 与 服装 评分 相关 性 最 强 的 10 个 变量 '” 

k = 10 

corr = round(df.corr(), 2) 

cols = corr.nlargest(k，' 服 装 评分 ')[ ' 服 装 评分 ']. index 

cm = round(df[cols].corr(), 2) 

mask = np.zeros like(cm, dtype = np. bool) 

mask[np.triu indices from(mask)] = True 

plt.figure(figsize - (8, 8)) 

cmap = sns.diverging palette(220, 10, as cmap = True) 

sns.heatmap(cm, mask = mask, cmap = cmap, center- 0, annot = True, cbar kws = ("shrink": .5]) 


运行 结果 如 图 5-6 所 示 。 
由 图 5-6 可 以 发 现 ,“ 是 否 推荐 ”这 个 变量 与 “服装 评分 "相关 性 最 强 。 
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""' 服 装 评分 与 年 龄 的 关系 … 

df. groupby([ ' 服 装 评分 '，pd. cut(df[ ' 评 论 者 年 龄 '],，np. arange(0, 100, 10)) ]). size().unstack(0). 
plot. bar( stacked = True) 

plt. show() 
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图 5-6 与 服装 评分 相关 性 最 强 的 10 个 变量 展示 图 
运行 结果 如 图 5-7 所 示 o 
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图 5-7 ”服装 评分 与 评论 者 年 龄 的 关系 展示 图 
由 图 5-7 可 以 发 现 ,“30 一 40” 与 40 一 50” 这 两 个 年 龄 段 的 人 在 评论 时 比较 喜欢 


给 高 分 。 
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"产品 类 别 与 年 龄 的 关系 

d£. groupby([ ' 产 品 大 类 '，pd. cut(df[ ' 评 论 者 年 龄 '], np. arange(0,100,10))]). size().unstack(0). 
plot. bar( stacked = True) 

plt. show() 


运行 结果 如 图 5-8 所 示 。 
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图 5-8 产品 大 类 与 评论 者 年 龄 的 关系 展示 图 
由 图 5-8 可 以 发 现 ,*30 一 40” 和 *40 一 50” 是 购物 的 主要 年 龄 段 ; 在 各 产品 类 别 
中 ,Tops" 在 各 年 龄 段 的 销量 都 不 错 “Dresses” Mil“ Bottoms” fE“30~ 407 #4 HA o 


5.3 文本 分 析 


对 于 电 商 评论 内 容 , 除 了 衍生 出 评论 字数 这 一 变量 外 ,还 可 对 其 进行 文本 分 析 ， 


找 出 评论 内 容 中 最 常见 的 词语 有 哪些 ,然后 再 对 常用 词 进行 情感 分 析 。 
LLLI E 
import re 


a = df[ ' 评 论 内 容 ']. str. lower().str.cat(sep- ' ') 

b = re.sub('[^A-Za-2]* ', '', a) 

”加载 停 用 词 库 , 从 字符 串 文 本 中 移 除 停 用 词 '” 

from stop words import get stop words 

stop words - list(get stop words('english')) # 选 择 英语 停 用 词 
import nltk 

from nltk. corpus import stopwords 

nltk words = list(stopwords. words( english')) 
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stop_words. extend(nltk_words) 

from nltk import word_tokenize 

word_tokens = word_tokenize(b) 井 分 词 

filtered sentence = [i for i in word tokens if i not in stop words] 


在 这 里 说 明 一 下 ,不同 国家 的 停 用 词 库 是 不 一 样 的 。 如 果 文 本 内 容 是 中 文 ,可 以 
在 网 上 下 载 中 文 停 用 词 库 ; 如 果 文 本 内 容 是 英语 ,Python 有 专门 打包 好 的 停 用 词 库 。 

这 里 使 用 了 两 个 英语 停 用 词 库 , 一 个 是 stop. words. get_stop_words, 可 以 打 
网 址 : https://pypi. org/project/stopwords/ ,查看 支持 的 国家 语言 ; 一 个 是 有 名 的 自 
然 语言 处 理 包 nltk, 在 用 这 个 包 之 前 ,需要 在 pycharm 中 输入 nltk. download() 语 句 ， 
下 载 停 用 词 包 。 

停 用 词 库 准 备 好 后 ,就 是 分 词 和 去 除 停 用 词 了 。 如 果 文 本 内 容 是 中 文 , 一 般 用 
jieba 分 词 ,如 果 文 本 内 容 是 英文 ,一 般 用 nltk 里 的 word_tokenize。 

分 词 过 后 ,一般 需要 删除 过 短 的 评论 。 


,… 选 择 长 度 大 于 2 的 字符 "… 

without single chr = [i for i in filtered sentence if len(i) > 2] 
“计算 词 频 … 

top N - 100 


word dist = nltk.FreqDist(without single chr) 

rslt = pd.DataFrame(word dist.most common(top N), columns =[' 单 词 '，' 频 率 ']) 
sns.barplot(x- ' 单 词 ', y= ' 频 率 '，data = rslt.head(7)) 

plt. show() 


运行 结果 如 图 5-9 所 示 o 


图 5-9 不 同 单词 的 词 频 统 计 展 示 图 


| 第 5 章 自然 语言 处 理 案例 一 电 商 评论 (91) 


MET E 
from wordcloud import WordCloud 
def wc(data, bgcolor, title): 
plt.figure(figsize - (10,10)) 
plt. title(title) 
wc = WordCloud(background color = bgcolor, max words = 1000, max font size= 50) 
we. generate( ' '. join(data) ) 
plt. imshow(wc) 
plt.axis('off') 
plt. show() 
wc(without_single_chr，'black'，' 最 常用 的 单词 ') 


运行 结果 如 图 5-10 所 示 。 


最 常用 的 单词 


图 5-10 最 常用 的 单词 词 云图 


5.4 情感 分 析 


情感 分 析 是 对 带 有 情感 色彩 的 主观 性 文本 进行 分 析 、 处 理 \ 归 纳 和 推理 的 过 程 。 
在 电 商 的 评论 内 容 中 ,商家 可 以 根据 购买 者 评论 的 内 容 , 分 析出 购买 者 对 商品 的 喜欢 
程度 ,从 而 对 商品 或 服务 进行 优化 与 改进 


from textblob import TextBlob # 情 感 分 析 
bloblist desc = [] 
df review str = df[ ' 评 论 内 容 '].astype(str) 
for i in df review str: 
blob - TextBlob(i) 
#polarity 正 数 表 示 积 极 , 负 数 表示 消极 , subjectivity 0 表示 客观 ,1 表示 主观 
bloblist desc.append((i, blob.sentiment.polarity, blob. sentiment. subjectivity)) 
df polarity desc = pd.DataFrame(bloblist desc, columns = [' 评 论 '，' 情 绪 '，' 极 性 ']) 
def f(x): 
if x[ ' 情 绪 '] > 0: 
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val = "积极 评论 ' 
elif x[ ' 情 绪 '] == 0: 
val = ' 中 性 评论 ' 
else: 
val = ' 负 面 评论 ' 
return val 
df polarity desc[ ' 情 绪 类 型 '] = df polarity desc.apply(f, axis=1) 
sns. countplot(x= ' 情 绪 类 型 '，data = df polarity desc) 
plt. show( ) 


运行 结果 如 图 5-11 所 示 。 


PE _ 
积极 评论 负面 评论 中 性 评论 
情绪 类 型 


图 5-11 情感 分 析 词 频 图 
由 图 5-11 可 以 发 现 , 绝 大 部 分 评论 还 是 积极 的 。 


…' 正 面 评论 词 云图 '” 
positive reviews = df polarity desc[df polarity desc[ ' 情 绪 类 型 '] == ' 积 极 评论 '] 
wc(positive reviews[ ' 评 论 ']，'black'，' 正 面 评 论 ) 


运行 结果 如 图 5-12 所 示 。 
正面 评论 
> mill? true; size got 
sweater 


mucn 


: style fabric 


t sleeve 


en d| [ess fit 


图 5-12 正面 评论 词 云图 
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”负面 评论 词 云图 '” 

negative reviews = df polarity desc[df polarity desc[ ' 情 绪 类 型 '] == ' 负 面 评论 '] 
wc(negative reviews[ ' 评 论 ']，'black'，' 负 面 评论 ') 

运行 结果 如 图 5-13 所 示 。 


负面 评论 
material pant 


spore SMA lureally’ 
Urun 
v~l ook 


tight pedo ! d Ee S S ad 
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图 5-13 负面 评论 词 云图 


5.5 文本 分 类 


在 对 电 商 评论 内 容 的 常用 词语 进行 情感 分 析 之 后 ,可 根据 顾客 对 商品 的 喜爱 程 
度 , 推 荐 其 他 类 似 的 商品 ,从 而 提高 商品 销量 和 商家 的 收益 。 


""' 停 用 词 处 理 '… 
import string 
def text process(x): 
nopunc 7 [i for i in x if i not in string. punctuation] 
nopunc = ''.join(nopunc) 
return [i for i in nopunc. split() if i.lower() not in stopwords. words( 'english')] 
df[ ' 评 论 内 容 '] = df[ ' 评 论 内 容 ']. apply(text process) 
”朴素 贝 叶 斯 模型 进行 文本 分 类 '” 
rating class = df[(df[' 服 装 评分 '] == 1) | (df[' 服 装 评分 '] == 5)] 
X review = rating class[ ' 评 论 内 容 '] 
y = rating class[ ' 服 装 评分 '] 
from sklearn.feature extraction.text import CountVectorizer # 文 本 特征 提取 
bow transformer = CountVectorizer(analyzer = text process).fit(X review) 
X review - bow transformer.transform(X review) 
from sklearn.model selection import train test split as sp 
X train,X test,y train,y test = sp(X review, y, test size- 0.3, random state = 101) 
from sklearn.naive bayes import MultinomialNB 
nb - MultinomialNB() 
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nb.fit(X train, y train) 

predict = nb.predict(X test) 

UTREE 

X predict recommend = df[ ' 评 论 内 容 '] 

y recommend = df[ ' 是 否 推荐 '] 

bow transformer = CountVectorizer(analyzer = text process).fit(X predict recommend) 

X predict recommend - bow transformer.transform(X predict recommend) 

X train, X test, y train, y test - sp(X predict recommend, y recommend, 
test size- 0.3, random state = 101) 

nb - MultinomialNB() 

nb.fit(X train, y train) 

predict recommendation - nb.predict(X test) 


5.6 小 结 


本 章 主 要 通过 电 商 评论 案例 ,简单 地 介绍 了 自然 语言 处 理 的 流程 ,其 中 包括 可 视 
化 、 文 本 分 析 、 情 感 分 析 以 及 文本 分 类 等 。 现 阶段 ,自然 语言 处 理 也 是 人 工 智 能 的 重 
要 应 用 方向 之 一 , 感 兴趣 的 读者 可 以 先 确 定好 自己 的 研究 方向 ,再 进行 深入 研究 。 


模型 融合 是 综合 考虑 不 同 模型 的 情况 ,然后 再 将 它们 的 输出 结果 融合 到 一 起 。 
模型 融合 主要 有 以 下 5 种 方法 : bagging. boosting, stacking, blending 和 输出 结果 加 
权 融 合 。 

为 什么 要 做 模型 融合 ? 因为 它 通常 可 以 使 模型 效果 获得 提升 ,同时 ,模型 融合 是 
机 器 学 习 竞赛 中 常用 的 方法 。 

本 章 主要 介绍 stacking 和 blending 方法 。 


1. 两 层 N 个 模型 的 K 折 stacking 原理 


CD 将 模型 列表 中 每 个 模型 的 输出 结果 作为 新 的 训练 集 特征 ,用 于 第 2 层 模型 。 

(2) 单个 模型 K 折 交 叉 训 练 , 将 每 折 训 练 出 的 模型 放 在 测试 集 上 预测 ,输出 K 
次 结果 ,均值 作为 新 的 测试 集 特征 ,用 于 第 2 层 模型 。 

(3) 把 New Features 和 label 作为 新 的 分 类 器 的 输入 进行 训练 ,然后 通过 测试 集 
的 New Features 获得 最 终 的 预测 结果 。 


2. BEN 个 模型 的 blending 原理 


CD 训练 集 划 分 为 两 部 分 (trainl ,train2) ,测试 集 为 test. 
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(2) 模型 列表 中 ,每 个 模型 在 训练 集 train? 部 分 的 预测 结果 作为 X 5j train2 部 
分 的 y 一 起 ,组 成 新 的 训练 集 , 用 于 第 2 层 模型 。 

(3) 模型 列表 中 ,每 个 模型 在 测试 集 上 的 预测 结果 作为 X, 组 成 新 的 测试 集 , 用 
于 第 2 层 模型 。 

【注意 】 

基 模 型 之 间 的 差异 性 要 尽 可 能 大 ,最 好 是 融合 不 同类 型 的 模型 ; 基 模 型 之 间 的 
性 能 表现 不 能 差距 太 大 ,如 果 有 性 能 特别 不 好 的 模型 ,建议 从 模型 列表 中 剔除 。 


6.1 分 类 模型 的 融合 方法 


用 于 风 控 领域 的 机 器 学 习 建 模 主要 包括 两 大 类 : 分 类 模型 与 回 
归 模 型 。 下 面 介绍 分 类 模型 的 融合 方法 。 


首先 是 导入 包 和 加 载 数据 ,代码 如 下 : 


import numpy as np 

import pandas as pd 

import matplotlib.pyplot as plt 
import seaborn as sns 

import warnings 

warnings. filterwarnings(" ignore") 
import os 

os. chdir('../data') 

data - pd. read csv( 'datal.csv') 
data. head() 


预览 数据 ,如 图 6-1 所 示 。 


1n [2]: data.head() 


Qut(2]: 


ze name PPAR anon 货款 目的 sean awan 


2 
mau 
ri 
* 

a 
a 
Be 
sane 
à 
CEECEE] 


0 0417960 10 -1.142293 0485600 10 20 20 -0268487 1092490 -0381014 .. oo oo 00 00 
1 -0.124000 10 -1680677 -0.150988 10 100 20 0272756 0011991 -0381014 .. oo oo 00 oo 
2 -0993008 10 -0638188 -096961 20 100 30 -0074261 -0668442 -0381014 _. oo — 10 oo o0 
3 -O39118 10 -1680677 -0355510 10 30 30 -0268467 0011991 -0381014 . 00 ao oo oo 
4 1177307 20 3091604 1200438 60 100 30 0099781 -0482416 -0381014 .. oo o 00 oo 


5 rows x 72 columns 


图 6-1 数据 预览 展示 图 


看 一 下 目标 变量 的 水 平分 布 。 


data[ 'target'].value counts() 
0 7963 

T 2037 

Name: target, dtype: int64 


然后 对 数据 集 进行 切 分 ,代码 如 下 : 


allFeatures = list(data.columns) 

allFeatures. remove( 'target') 

X = data[allFeatures] 

y = data[ 'target'] 

from sklearn.cross validation import train test split as sp 

X train, X test, y train, y test = sp(X, y, test size- 0.3, random state- 1) 


用 默认 参数 在 训练 集 上 训练 模型 。 


from sklearn.linear model import LogisticRegression as LR 

lr = LR(random state = 1) 

lr.fit(X train, y train) 

from sklearn import metrics 

y test label = lr.predict(X test) 

y test value = lr.predict proba(X test)[:, 1] 

print(" 测 试 集 准确 率 是 : {:.2% }". format(metrics. accuracy_score(y test, y test label))) 
print(" 测 试 集 AUC 是 : (:.4)".format(metrics.roc auc score(y test, y test value))) 


输出 结果 如 下 : 


测试 集 准 确 率 是 : 80.50 % 
测试 集 AUC 是 : 0.6815 


下 面 使 用 5 折 交 叉 训练 试 试 , 代 码 如 下 : 


from sklearn.cross validation import KFold 

kf = KFold(len(y train), 5, random state- 1) 

scores = [] 

for iteration, indices in enumerate(kf, start- 1): 
X train = X train. reset_index(drop = True) 
y_train = y_train. reset_index(drop = True) 
lr = LR(random_state = 1) 
lr.fit(X train. iloc[indices[0], :], y train. iloc[ indices[0]]. values. ravel()) 
y pred = lr.predict proba(X train. iloc[ indices[1], : ]. values)[:, 1] 
Score = metrics.roc auc score(y train. iloc[indices[1]].values, y pred) 
Scores. append(score) 
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print('3k[C WU: ', iteration, ': 得 分 = ', score) 
print( 平均 得 分 ', np.mean(scores)) 
y test value = lr.predict proba(X test)[:, 1] 
print( Wit auc 是 : (:.4)'.format(metrics.roc auc score(y test, y test value))) 


输出 结果 如 下 : 

和 迭代 次 数 1: 得 分 = 0.691516182342 
和 迭代 次 数 2: 得 分 = 0.666559048428 
迭代 次 数 3: 得 分 = 0.666094545455 


和 迭代 次 数 4: 得 分 = 0.670818425474 
和 迭代 次 数 5: 得 分 = 0.667348864361 
平均 得 分 0.672467413212 

测试 集 AUC 是 : 0.6797 


1. blending 


下 面 介绍 模型 融合 之 blending 方法 。 本 例 中 ,第 1 层 模型 选择 的 是 支持 向 量 机 、 
朴素 贝 叶 斯 、K 最 近邻 .随机 森林 ,第 2 层 模 型 选择 的 是 逻辑 回归 。 


第 1 层 : 

from sklearn. svm import SVC # 支 持 向 量 机 
from sklearn. naive_bayes import GaussianNB as GNB SOROR UL n 
from sklearn.neighbors import KNeighborsClassifier as KNN #K 最 近邻 
from sklearn. ensemble import RandomForestClassifier as RFC # 随 机 森林 
from sklearn.linear model import LogisticRegression as LR 3 逻辑 回归 
sve = SVC(probability= True) 

gnb = GNB() 

knn = KNN() 


rfc = RFC(random state=1) 
model = [svc, gnb, knn, rfc] 
X train dl, X train d2, y train dl, y train d2 = sp(X train, y train, test size- 0.5, 
random state = 1) 
X train d2 blending - np.zeros((X train d2.shape[0], len(model))) 
X test blending = np.zeros((X test. shape[0], len(model))) 
for j, clf in enumerate(model): 
clf.fit(X train dl, y train dl) 
y test value = clf.predict proba(X train d2)[:, 1] 
# 模 型 列表 中 每 个 模型 的 预测 结果 ,组 成 新 的 训练 集 , 用 于 第 2 层 模型 
X train d2 blending[:, j] = y test value 
# 模 型 列表 中 每 个 模型 的 预测 结果 ,组 成 新 的 测试 集 ,用 于 第 2 层 模 型 
X test blending[:, j] = clf.predict proba(X test)[:, 1] 
print( ' 测 试 集 AUC 是 : {:.4}'. format(metrics. roc_auc_score(y test, X test blending[:, 
iD) 


输出 结果 如 下 : 


测试 集 AUC 是 : 0.6301 
测试 集 AUC 是 : 0.6521 
测试 集 AUC 是 : 0.6105 
测试 集 AUC 是 : 0.7953 


第 2 层 ; 


from sklearn. linear model import LogisticRegression as LR 

lr = LR() 

lr.fit(X train d2 blending, y train d2) 

y test value - lr.predict proba(X test blending)[:, 1] 

y test value- (y test value — y test value.min()) / (y test value.max() — y test value.min()) 
print(' 融 合 后 ,测试 集 AUC JE: (:.4)'.format(metrics.roc auc score(y test, y test value))) 


输出 结果 如 下 : 


融合 后 ,测试 集 AUC JE: 0.7943 


由 此 可 见 ,默认 参数 的 逻辑 回归 算出 测试 集 上 的 AUC 是 0. 6815 ,融合 模型 算出 
来 的 AUC 是 0.7943 ,此 次 模型 融合 预测 结果 提升 了 16. 55 个 百分点 。 


2. stacking 


下 面 介 绍 stacking 方法 ,本 例 中 的 模型 列表 与 blending 方法 一 样 ,采用 的 是 支持 
向 量 机 、 朴 素 贝 叶 斯 、K 最 近邻 和 随机 森林 。 
第 1 层 : 


X train = np.array(X train) 
y train = np.array(y train) 
X train stacking = np.zeros((X train.shape[0], len(model))) 
X test stacking = np.zeros((X test.shape[0], len(model))) 
from sklearn.cross validation import StratifiedKFold as SKF 
skf = list(SKF(y train, 5)) 
for j, clf in enumerate(model): 
X test stacking j = np.zeros((X test.shape[0], len(skf))) 
for i, (foldl, fold2) in enumerate(skf): 
X train fold,y train fold,X test fold,y test fold- X train[foldl], y train[foldl], 
X train[fold2], y train[fold2] 
clf.fit(X train fold, y train fold) 
y test value - clf.predict proba(X test fold)[:, 1] 
X train stacking[fold2, j] - y test value 
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X test stacking j[:, i] = clf.predict proba(X test)[:, 1] 
X test stacking[:, j] = X test stacking j.mean(axis- 1) 
print( ' 测 试 集 AUCJÉ: (:.4)'.format(metrics.roc auc score(y test, X test stacking :,j]))) 


预测 结果 如 下 : 


测试 集 AUC 是 : 0.6578 
测试 集 AUC 是 : 0.6635 
测试 集 AUC 是 : 0.6346 
测试 集 auc 是 : 0.8557 


第 2 层 : 


from sklearn. linear model import LogisticRegression as LR 

lr = LR() 

lr.fit(X train stacking, y train) 

y test value = lr.predict proba(X test stacking)[:, 1] 

# ”标准 化 

y test value = (y test value - y test value.min()) / (y test value.max() — y test value.min()) 
print( ' 融 合 后 ,测试 集 AUC 是 : (:.4) '. format(metrics.roc auc score(y test, y test value))) 


预测 结果 如 下 : 


融合 后 ,测试 集 AUC 是 : 0.8561 


此 次 逻辑 回归 结果 相对 于 blending 又 有 了 较 大 的 提升 。 
关于 stacking 方法 ,有 个 封装 好 的 第 三 方 包 mlxtend, 首 先 安装 mlxtend, 安 装 代 
码 为 : pip install mlxtend, 然 后 导入 包 , 进 行 分 析 , 代 码 如 下 : 


from mlxtend. classifier import StackingClassifier 

from sklearn.model selection import cross val score 

sclf = StackingClassifier(classifiers = model, meta classifier- lr, use probas = True) 

for clf, label in zip([svc, gnb, knn, rfc, sclf], ['svc', 'gnb', 'knn', 'rfc', 'sclf']): 
Scores - cross val score(clf, X train, y train, cv- 5, scoring- 'roc auc') 
print('roc auc {}, {}'.format(scores.mean(), label)) 


运行 结果 如 下 : 


roc auc 0.6413919395505555, svc 
roc auc 0.6606336495667565, gnb 
roc auc 0.6203925329163198, knn 
roc auc 0.8019715220818838, rfc 
roc auc 0.8028352114075513, sclf 


6.2 回归 模型 的 融合 方法 


上 面 介绍 了 分 类 模型 的 模型 融合 方法 ,现在 介绍 一 下 回归 模型 
的 融合 方法 。 


import numpy as np 
import pandas as pd 
import matplotlib. pyplot as plt 
import seaborn as sns 
import warnings 
warnings. filterwarnings(" ignore") 
import os 
os. chdir('../data') 
data = pd.read csv('data2.csv') 
allFeatures - list(data.columns) 
allFeatures. remove( 'target') 
allFeatures. remove( 'id') 
X data[allFeatures] 
y = data[ 'target'] 
from sklearn.cross validation import train test split as sp 
X train, X test, y train, y test = sp(X, y, test size - 0.3, random state- 1) 
"定义 评价 指标 "… 
from sklearn.model selection import cross val score 
def rmse cv(model): 
rmse- np.sqrt(- cross val score(model, X train, y train, scoring = 
"neg mean squared error", cv - 5)) 


return rmse 


这 里 的 评价 指标 是 交叉 验证 后 的 均 方 误 差 。 
下 面 开始 建 模 , 先 看 看 单个 模型 的 验证 效果 ,代码 如 下 : 


from sklearn. pipeline import make pipeline 

from sklearn.linear model import Lasso 井 对 异常 值 敏感 
from sklearn. preprocessing import RobustScaler # 取 四 分 位 差 
lasso = make_pipeline(RobustScaler(), Lasso(random_state = 1)) 
score = rmse_cv(lasso) 

print( ‘lasso 分 数 是 { :. 2£) '. format(score. mean())) 

from sklearn. ensemble import RandomForestRegressor as RFR 

rfr = RFR() 

score = rmse_cv(rfr) 

print('rfr 分 数 是 { :.2£) '. format(score. mean())) 

from sklearn. ensemble import GradientBoostingRegressor as GBR 
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gbr = GBR() 

score = rmse cv(gbr) 

print('gbr 分 数 是 {:.2f}'. format(score. mean())) 
import xgboost as xgb 

xgbr = xgb.XGBRegressor() 

score = rmse cv(xgbr) 

print( ' 分 数 是 { :.2£) '. format(score. mean())) 
import lightgbm as lgb 

lgbr = lgb.LGBMRegressor() 

score = rmse cv(lgbr) 

print( ' 分 数 是 {:.2f}'. format(score. mean())) 


运行 结果 是 : 


lasso 分 数 是 2725.84 
rfr 分 数 是 2489.27 
gbr 分 数 是 2502. 07 
xgb 分 数 是 2502. 23 
lgb 分 数 是 2321.25 


下 面 开始 使 用 Stacking 方法 进行 模型 融合 。 
Stacking]: 这 里 写 了 一 个 类 ,原理 是 多 个 基 学 习 器 对 数据 进行 训练 和 预测 ,然后 
根据 学 习 器 的 预测 结果 , 求 出 平均 值 ,将 其 作为 最 终 的 预测 结果 。 


from sklearn. base import BaseEstimator, TransformerMixin, RegressorMixin, clone 
class AveragingModels(BaseEstimator, RegressorMixin, TransformerMixin): 
def init__(self, models): 
self.models - models 
def fit(self, X, y): 
self.models_ = [clone(x) for x in self. models] 
for model in self.models : 
model.fit(X, y) 
return self 
def predict(self, X): 
+ AIF 1 维 数组 
predictions = np.column stack([model.predict(X) for model in self.models ]) 
return np.mean(predictions, axis - 1) 
averaged models - AveragingModels(models - (lasso, gbr, xgbr, lgbr)) 
Score - rmse cv(averaged models) 
print( ' 分 数 是 {:.2f}'. format(score. mean()) ) 


运行 结果 是 : 


分 数 是 2468. 91 


下 面 看 第 二 个 Stacking 方法 ,使 用 5 折 交 叉 验 证 ,各 模型 预测 结果 取 平 均值 ,并 
由 元 模型 预测 。 


from sklearn.model selection import KFold 
class StackingAveragedModels(BaseEstimator, RegressorMixin, TransformerMixin) : 
def init (self, base models, meta model, n folds = 5): 
self.base models - base models 
self.meta model - meta model 
self.n folds - n folds 
def fit(self, X, y): 
self.base models = [list() for x in self.base models] 
self.meta model = clone(self.meta model) 
kfold = KFold(n splits = self.n folds, random state = 1) 
out of fold predictions - np.zeros((X.shape[0], len(self.base models))) 
for i, model in enumerate(self.base models): 
for train index, holdout index in kfold.split(X, y): 
instance = clone(model) 
self.base models [i].append(instance) 
instance.fit(X[train index], y[train index]) 
y pred = instance. predict(X[holdout index]) 
out of fold predictions[holdout index, i] = y pred 
self.meta model .fit(out of fold predictions, y) 
return self 
def predict(self, X): 
meta features - np.column stack([np.column stack([model.predict(X) for model 
in base models]).mean(axis - 1) for base models in self.base models ]) 
return self.meta model .predict(meta features) 
stacked averaged models = StackingAveragedModels(base models = (gbr, xgbr, lgbr), 
meta model - lasso) 
Score = rmse cv(averaged models) 
print( ' 分 数 是 { :. 2£) '. format(score. mean())) 


预测 结果 是 : 


分 数 是 2468.76 


6.3 小 结 


以 上 的 Stacking 方法 是 可 以 直接 使 用 的 ,具有 普 适 性 。 以 上 代码 也 许 不 是 最 好 
的 ,在 特定 场景 下 也 许 不 是 最 优 的 。 那么 ,做 到 在 已 有 代码 的 基础 上 ,理解 .提炼 、 创 
新 出 更 好 的 代码 与 算法 , 才 是 优秀 风 控 建 模 师 能 力 的 体现 。 


mx 
ao 
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业内 某 知名 人 士 曾 说 过 这 么 一 段 话 ， pm 
“以 信用 评分 模型 的 方式 来 进行 风险 管 WR, 

这 是 国际 上 比较 成 功 的 实践 经 验 。 由 
于 消费 信贷 业务 具有 笔 数 多 、 单 笔 金额 
小 .数据 维度 丰富 的 特征 ,决定 了 需要 对 视频 讲解 
其 实行 智能 化 .概率 化 的 管理 模式 。 信 用 评分 模型 运用 现代 的 数理 统计 技术 ,通过 对 
消费 者 信用 历史 记录 和 业务 活动 记录 的 深度 挖 气 、 分 析 和 提炼 ,从 而 发 现 蕴藏 在 纷繁 
复杂 数据 中 的 消费 者 风险 特征 ,并 通过 评分 的 方式 总 结 出 来 ,进而 作为 管理 决策 的 科 
学 依据 。 这 种 管理 方法 ,已 成 为 国际 上 普遍 运用 的 风险 管理 最 佳 操作 典范 。 除 了 风 
险 管理 这 一 核心 领域 ,这 种 智能 化 .概率 化 的 管理 模式 还 被 贯穿 到 消费 信贷 和 信用 卡 
的 收益 管理 ,客户 忠诚 度 管理 .客户 关系 管理 等 方面 ,涵盖 了 信贷 生命 周期 管理 的 各 

阶段 ,包括 从 产品 设计 到 市 场 营销 、 从 信贷 审批 到 账户 管理 .从 坏账 催收 到 反 欺 诈 
等 。 在 这 些 方面 ,国际 上 都 有 比较 成 功 的 经 验 值得 我 们 借鉴 .” 

说 到 金融 领域 的 评分 卡 ,就 不 得 不 提 到 美国 的 FICO。 自 美国 三 大 征 信和 局 形成 体 
系 之 后 ,FICO 总 结 了 征 信 数 据 的 所 有 重要 规律 ,以 一 个 简单 扼要 的 评分 方式 对 2 亿 
多 美国 人 进行 一 个 准确 的 风险 评估 。 这 就 是 如 今 一 个 普通 美国 人 能 够 快速 地 获得 普 
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惠 金融 服务 的 最 根本 条 件 。 如 果 用 户 要 去 银行 申请 贷款 只 需要 银行 查 一 下 用 户 的 信 
用 评分 是 多 少 ,就 会 知道 你 是 否 符 合 审批 标准 ,能 批 多 少 额 度 , 而 且 利率 也 会 非常 巾 
近 用 户 真实 的 风险 水 平 。 这 是 美国 金融 市 场 的 一 个 重大 里 程 碑 。 

如 今 ,FICO 是 全 球 最 大 的 个 人 信用 评分 机 构 , 每 年 向 市 场 提供 上 百 亿 个 FICO 
评分 ,管理 着 全 球 65% 的 信用 卡 , 其 采用 的 很 多 消费 信贷 和 信用 卡 业务 的 技术 手段 都 
成 为 了 行业 标准 。 

评分 卡 按照 应 用 场景 分 类 ,可 以 分 风险 评分 卡 、 营 销 响 应 评分 卡 、 客 户 流 失 评 分 
卡 、 员 工 离职 倾向 评分 卡 等 ; 按照 用 途 和 时 间 的 不 同 ,风险 评分 卡 又 可 以 分 为 贷 前 的 
申请 评分 卡 、 申 请 欺诈 评分 卡 , 贷 中 的 行为 评分 卡 以 及 贷 后 的 催收 评分 卡 。 

本 章 主 要 介绍 风险 评分 卡 里 的 申请 评分 卡 ,这 是 最 常用 也 是 最 重要 的 评分 卡 之 一 。 

首先 必须 要 明白 两 个 概念 : 观察 期 和 表现 期 。 

观察 期 主要 用 于 收集 信用 历史 和 行为 特征 等 信息 ,从 而 提炼 出 能 够 预测 未 来 信 
用 表现 的 预测 变量 。 一 般 来 说 ,根据 产品 的 不 同 , 可 以 将 放款 前 的 6 一 12 个 月 作为 观 
察 期 ,用 来 获取 特征 变量 。 

表现 期 主要 用 于 收集 信用 表现 的 信息 ,如 是 否 拖欠 、 是 否 逾 期 ,是否 流失 等 ,从 而 
提炼 表现 变量 ,确定 目标 客户 。 

FICO 中 国 区 总 裁 陈 建 先生 曾经 说 过 ,申请 风险 评分 模型 的 表现 变量 的 定义 一 般 
根据 表现 期 终 的 信用 表现 界定 如 下 : 

CD 3 期 拖欠 以 上 ,呆账 ,破产 的 账户 定义 为 “ 坏 ”。 

(2) 未 拖欠 或 1 期 拖欠 的 账户 定义 为 “好 ”。 

(3) 2 期 拖欠 的 账户 定义 为 “不 确定 ”, 被 排除 于 模型 之 外 。 

CA) 如 果 银 行业 务 历史 较 短 ,“ 坏 ”的 样本 量 不 足 ( 一 般 一 个 模型 需要 800 ~ 1500 
个 “ 坏 ” 账 户 为 样本 ), 则 可 以 把 2 期 拖欠 的 账户 也 定义 为 “ 坏 ”。 

(5) 如 果 按 “表现 期 终 ” 的 界定 方法 “ 坏 ” 样 本 量 不 足 , 也 可 以 把 “表现 期 内 ”最 大 
拖欠 达 3 期 以 上 的 统统 定义 为 “ 坏 ”( 即 使 其 在 表现 期 终 恢复 到 相对 “好 ”的 地 位 )。 

以 上 这 段 话 更 多 地 倾向 于 长 期 循环 贷 或 银行 信用 卡 产品 。 从 实际 应 用 层面 上 来 
说 ,根据 各 信贷 产品 的 应 用 场景 不 同 , 目 标 变量 是 不 能 一 概 而 论 的 。 目 标 客户 的 定义 
可 以 根据 业务 规则 强制 来 定 , 也 可 以 根据 坏 客户 迁徙 矩阵 来 定 ; 表现 期 的 长 短 除 了 
根据 自身 的 历史 数据 定义 以 外 ,还 可 以 把 逾期 率 趋 于 稳定 的 时 间 窗 口 定义 为 表现 期 。 

再 说 说 观察 期 与 特征 变量 。 申 请 评分 卡 时 ,各 特征 必须 是 贷 前 就 能 获取 的 特征 ， 
一 般 围绕 着 客户 的 还 款 能 力 、 还 款 意愿 、 稳 定性 和 多 头 借贷 这 4 点 展开 。 选 择 数据 供 
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应 商 时 ,除了 上 述 4 个 核心 点 ,还 需要 兼顾 自己 的 产品 客 群 定位 ,用户 体验 .数据 成 
本 。 比 如 产品 是 农户 贷 , 那 么 社保 .公积金 ,网银 工 资 流水 就 是 不 需要 获取 的 特征 。 
如 果 产 品目 标 是 电 商 小 商户 , 则 电 商 数据 就 是 非常 有 用 的 特征 。 

那么 ,明确 表现 期 和 观察 期 的 概念 以 后 ,该 如 何 创建 申请 评分 卡 呢 ? 

创建 申请 评分 卡 有 两 种 方法 : 一 种 是 多 辑 回归 模型 ; 另 一 种 是 机 器 学 习 模型 。 

风 辑 回归 模型 是 个 非常 好 的 模型 ,效果 非常 稳定 ,也 容易 从 业务 角度 进行 解释 ， 
只 要 通过 简单 的 变换 ,就 能 得 到 入 模 各 变量 的 评分 ,但 是 它 对 数据 的 质量 要 求 较 高 ， 
还 要 服从 前 提 假 设 , 并 且 精 度 不 是 很 高 。 

再 说 说 机 器 学 习 模 型 ,申请 评分 本 质 上 是 违约 概率 的 映射 ,违约 概率 完全 可 以 用 
机 器 学 习 模型 计算 出 来 ,而且 准 确 度 也 较 高 。 可 是 机 器 学 习 模 型 未 能 完全 代替 逻辑 
回归 模型 ,其 主要 原因 是 模型 很 难 从 业务 角度 进行 解释 ,并 且 模 型 部 署 难 度 较 高 。 因 
此 ,目前 申请 评分 卡 主要 还 是 使 用 逻辑 回归 模型 。 那 么 本 章 就 详细 介绍 一 下 如 何 用 
Python 创建 旭 辑 回归 模型 下 的 金融 申请 评分 卡 。 

逻辑 回归 模型 创建 金融 申请 评分 卡 的 核心 步骤 ,如 下 所 述 。 

CD 变量 分 箱 。 常 用 的 分 箱 方法 是 等 宽 、 等 频 、 人 工 指 定 分 箱 切 割 点 、 卡 方 分 箱 、 
C4. 5 决策 树 分 箱 这 5 种 。 前 面 3 种 方法 是 无 监督 分 箱 法 ,需要 人 工 主 动 调试 ,更 多 
地 依赖 于 建 模 人 员 的 经 验 和 对 业务 的 理解 ; 后 两 种 分 箱 法 又 称 为 最 优 分 箱 法 。 

(2) WOE 编码 (Weight of Evidence) ,又 称 为 证 据 权重 。 计 算 公 式 是 每 箱 好 样本 
比例 与 坏 样 本 比例 的 比值 的 自然 对 数 。 

(3) IV 值 (Information Value), 又 称 为 信息 浓度 。 计 算 公式 是 每 箱 好 样本 比例 
与 坏 样本 比例 的 差 值 ,再 乘 以 对 应 的 WOE 值 。 一 般 选 择 IV 之 0. 02 的 变量 。 

(A) 共 线 性 .相关 性 .显著 性 检验 。 

(5) 计算 每 个 变量 对 应 切 分 点 的 分 数 。 


7.1 变量 选择 
在 构建 录 辑 回归 模型 时 ,从 观察 期 收集 的 指标 可 能 有 几 百 个 ,那么 就 需要 从 收集 


到 的 所 有 指标 中 筛选 出 对 违约 状态 影响 最 大 的 指标 ,作为 入 模 指标 ,来 开发 模型 ,这 
就 是 变量 选择 。 
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P E E E 
# Step 1: LightGBM 重要 性 选择 变量 

P E E E E 
import numpy as np 

import pandas as pd 

import matplotlib. pyplot as plt 

import seaborn as sns 

import warnings 

warnings. filterwarnings( 'ignore') 

import os 

os. chdir('../data') 

data = pd.read csv('data all values.csv') 


预览 数据 ,如 图 7-1 所 示 。 


In [3]: data.shape 
Oot[3]: (103434, 19) 


In [4]: data.head() 


out (4): 
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图 7-1 评分 卡 数据 预览 展示 图 
这 是 个 有 103434 行 .19 列 的 数据 。 
目标 变量 的 水 平分 布 如 下 : 


data[ 'target']. value_counts() 
0 95087 

1 8347 

Name: target,dtype: int64 


先 把 变量 分 成 连续 变量 与 分 类 变量 ,分 类 依据 是 连续 变量 的 水 平 种 类 在 10 种 以 
上 ,分 类 变量 的 水 平 种 类 在 10 种 以 下 。 


data copy = data.copy() 
allFeatures - list(data.columns) 
allFeatures. remove( target') 
for i in allFeatures: 
print( ' 变 量 : {} 的 不 同 水 平 值 有 {} 个 ". format(i, len(data[i].unique()))) 
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变量 : 贷款 金额 的 不 同 水 平 值 有 1481 个 

变量 : 贷款 期 限 的 不 同 水 平 值 有 2 个 

变量 : 利率 的 不 同 水 平 值 有 57 个 

变量 : 每 月 还 款 金 额 的 不 同 水 平 值 有 15228 个 

变量 : 贷款 等 级 的 不 同 水 平 值 有 7 个 

变量 : 工作 年 限 的 不 同 水 平 值 有 10 个 

变量 : 房屋 所 有 权 的 不 同 水 平 值 有 3 个 

变量 : 年 收入 的 不 同 水 平 值 有 8454 个 

变量 : 收入 是 否 由 LC 验证 的 不 同 水 平 值 有 3 个 
变量 : 贷款 目的 的 不 同 水 平 值 有 13 个 

变量 : 月 负债 比 的 不 同 水 平 值 有 4196 个 

变量 : 过 去 两 年 借款 人 逾期 30 天 以 上 的 数字 的 不 同 水 平 值 有 22 个 
变量 : 过 去 6 个 月 内 被 查询 次 数 的 不 同 水 平 值 有 6 个 
变量 : 摧毁 公共 记录 的 数量 的 不 同 水 平 值 有 19 个 
变量 : 额度 循环 使 用 率 的 不 同 水 平 值 有 1085 个 
变量 : 总 贷款 笔 数 的 不 同 水 平 值 有 108 个 

变量 : 拖欠 的 逾期 款项 的 不 同 水 平 值 有 420 个 

变量 : 留置 税 数量 的 不 同 水 平 值 有 18 个 


所 以 ,分 类 变量 和 连续 变量 分 别 如 下 : 


categorical var = [ 贷款 期 限 '，' 贷 款 等 级 ，' 工 作 年 限 ，' 房 屋 所 有 权 '" WAIL A Hh LC 验证 "贷款 
目的 '，' 过 去 6 个 月 内 被 查询 次 数 '，' 留 置 税 数量 '] 

continuous var = [ ' 贷 款 金额 '，' 利 率 '，' 每 月 还 款 金额 '，' 年 收入 '，' 月 负债 比 '，' 过 去 两 年 借款 
人 逾期 30 天 以 上 的 数字 '，' 摧 毁 公共 记录 的 数量 '，' 额 度 循环 使 用 率 '，' 总 贷款 笔 数 '，' 拖 欠 的 逾 
期 款项 '] 


首先 进行 变量 筛选 。 这 里 使 用 LightGBM 算法 先进 行 重要 性 排序 ,再 对 变量 进 
fT ALi. 


"' 连 续 变 量 标准 化 '” 
from sklearn. preprocessing import StandardScaler 
Sc = StandardScaler() 
data[continuous var] = sc.fit transform(data[continuous var]) 
“数值 分 类 变量 转 整 型 ， 
string var = list(data. select_dtypes( include = ["object"]).columns) 
col = list(set(categorical var) - set(string var)) 
data[col] = data[col].astype(int) 
"FRE SY ISA BEBE URS EAS HE AT R 
def Encoder(df, col, target) : 
encoder = {} 
for v in set(df[col]): 
if v == v: 
subDf = df[df[col] == v] 
else: 
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xList - list(df[col]) 
nanInd = [i for i in range(len(xList)) if xList[i] != xList[i]] 
subDf = df.loc[nanInd] 
encoder[v] = sum(subDf[target]) * 1.0/subDf. shape[0] 
newCol = [encoder[i] for i in df[col]] 
return newCol 
string var = list(data. select_dtypes( include = ["object"]).columns) 
col - list(set(categorical var) & set(string var)) 
for i incol: 
data[i] = Encoder(data, i, 'target') 


现在 再 预览 一 下 数据 ,如 图 7-2 所 示 。 


1n [9]: data.head() 


out [9] 
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图 7-2 评分 卡 数据 标准 化 之 后 的 预览 展示 图 


LightGBM 模型 有 个 非常 好 的 功能 ,就 是 能 指定 分 类 变量 ,省 去 了 one-hot 编码 
的 步骤 。 


"指定 整 型 分 类 变量 作为 Light GBM 的 分 类 特征 '” 

col = list(set(categorical var) - set(string var)) 
"保存 变量 和 文件 

import pickle 

f = open('lgb_col.pkl', 'wb') 

pickle. dump(col, f) 

f.close() 

anis 

allFeatures = list(data. columns) 

allFeatures. remove( 'target') 

X = data[allFeatures] 

y = data['target'] 

from sklearn.cross validation import train test split as sp 
X train, X test, y train, y test = sp(X, y, test size - 0.3, random state- 1) 
… 加 载 分 类 变量 ， 

f = open('lgb col.pkl', 'rb') 

col = pickle. load(f) 

£.close() 
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"LightGBM 建 模 '… 

import lightgbm as LGB 

params - ( 
'objective': 'binary 
'boosting': 'gbdt', 
"num leaves': 4, 
'min data in leaf': 20, 
'subsanple': 0.9, 
'colsample bytree': 0.8, 
"learning rate':0.09, 
'tree learner': 'voting', 


"metric': 'auc' 
) 
LGB.Dataset(X train, y train, categorical feature = col) 


dtrain 
dtest = LGB.Dataset(X test, y test, reference = dtrain, categorical feature = col) 
lgb = LGB.train(params, dtrain, valid sets = [dtrain, dtest], num boost round- 3000, 


early stopping rounds - 100, verbose eval- 10) 


运行 结果 如 下 : 


Training until validation scores don't improve for 100 rounds. 


10] training's auc: 0.670416 valid 1's auc: 0.668585 


180] training's auc: 
190] training's auc: 
200] training's auc: 
210] training's auc: 
220] training's auc: 
230] training's auc: 
240] training's auc: 
250] training's auc: 
260] training's auc: 


人 全 


20] training's auc: 0.67935 valid 1's auc: 0.675068 
30] training's auc: 0.68141 valid 1's auc: 0.67786 
40] training's auc: 0.684492 valid 1's auc: 0.679672 
50] training's auc: 0.687648 valid 1's auc: 0.681506 
[60] training's auc: 0.689867 valid 1's auc: 0.682638 
70] training's auc: 0.691886 valid 1's auc: 0.683422 
[80] training's auc: 0.693716 valid 1's auc: 0.683969 
[90] training's auc: 0.695131 valid 1's auc: 0.684526 
100] training's auc: 0.69629 valid 1's auc: 0.68495 
110] training's auc: 0.697477 valid 1's auc: 0.685131 
[120] training's auc: 0.69868 valid 1's auc: 0.685219 
[130] training's auc: 0.699542 valid 1's auc: 0.685314 
140] training's auc: 0.700352 valid 1's auc: 0.685386 
[150] training's auc: 0.701254 valid 1's auc: 0.685586 
[160] training's auc: 0.702065 valid 1's auc: 0.685466 
170] training's auc: 0.702856 valid 1's auc: 0.685529 


.70363 valid 1's auc: 0.685604 
.704406 valid 1's auc: 0.685665 
. 704822 valid 1's auc: 0.68562 
.705378 valid 1's auc: 0.685495 
.70624 valid 1's auc: 0.685289 
.706735 valid 1's auc: 0.685263 
707306 valid 1's auc: 0.685158 
-7078 valid 1's auc: 0.68513 

. 708471 valid 1's auc: 0.685116 
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[270] training's auc: 0.709135 valid 1's auc: 0.684981 
[280] training's auc: 0.709565 valid 1's auc: 0.685044 
[290] training's auc: 0.710201 valid 1's auc: 0.684811 
Early stopping, best iteration is: 

[191] training's auc: 0.704434 valid l's auc: 0.685696 


说 明 最 好 的 迭代 轮 次 是 第 191 FE ,最 好 的 结果 是 训练 集 auc 是 0.70, 最 好 的 测试 
集 auc Æ 0. 68, 
下 面 计算 变量 重要 性 。 


"LightGBM 重要 性 选择 变量 '” 

importace = list(lgb.feature importance()) 

allFeatures = list(lgb.feature name()) 

featureImportance - zip(allFeatures, importace) 

featurelmportanceSorted = sorted(featureImportance, key - lambda k: k[1], reverse = True) 

plt.figure(figsize - (5, 10)) 

sns.barplot(x- [k[1] for k in featureImportanceSorted], y= [k[0] for k in 
featureImportanceSorted]) 

plt. xticks(rotation = 'vertical') 

plt. show() 


运行 结果 如 图 7-3 所 示 。 
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图 7-3 LightGBM 重要 性 排序 展示 图 
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这 里 选择 前 13 个 最 重要 的 变量 。 


feature selection lgb = [k[0] for k in featureImportanceSorted[ :13]] 


7.8 变量 按照 In(odds) 进 行 分 箱 


odds 是 好 坏 比 之 意 ,其 计算 公式 为 : odds 王 好 客户 比例 / 坏 客户 比例 。 如 果 该 箱 
好 客户 多 , 则 InCodds) >0; 反之 ,ln(odds) 一 0。 


并 并 并 并 柯 提 提亲 林 提 并 间 林 林 提 并 并 并 间 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 林 并 并 并 并 提 并 并 并 并 并 并 提 
# Step 2: 分 类 变量 分 箱 
BEBBERBHEEHHEBHHEERHEREEEREEEEEEREEREHRERUEERHHERERERAR 
data = data copy.copy() 
data = data[feature selection lgb + ['target']] 
data copy = data.copy() 
”分 类 变量 按照 lIn(odds) 进 行 编码 "" 
def Ln odds(df, col, target): 
total = df.groupby([col])[target].count() 
total = pd.DataFrame(('total': total}) 
bad = df.groupby([col])[target]. sum( ) 
bad = pd.DataFrame(('bad': bad)) 
regroup = total.merge(bad, left index = True, right index - True, how- 'left') 
regroup.reset index(level- 0, inplace = True) 
N = sum(regroup[ total']) 
B = sum(regroup[ 'bad']) 
regroup['good'] = regroup['total'] - regroup[ bad'] 
G -—-N-B 
regroup['bad pcnt'] = regroup[ bad'].map(lambda x: x * 1. 0/B) 
regroup['good pcnt'] = regroup['good'].map(lambda x: x * 1.0 / G) 
regroup[col + ' WOE'] = regroup. apply( lambda x: np. log(x. good_pent * 1.0/x.bad pcnt), 


axis = 1) 
df = pd.merge(df, regroup[[col,col + ' WOE']], on= col, how= 'left') 
return df 
"分 类 变量 分 箱 … 


categorical var = list(set(categorical var) & set(feature selection lgb)) 
categorical var =【[' 贷 款 期 限 '，' 房 屋 所 有 权 '，' 贷 款 等 级 '，' 过 去 6 个 月 内 被 查询 次 数 '，' 工 作 
ÆR] 
for i in categorical_var: 

data = Ln odds(data, i, 'target') 

sns.pointplot(x- i, y- i* ' WOE', data = data) 

plt.xticks(rotation- 0) 

plt. show() 
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运行 结果 如 图 7-4 所 示 。 
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图 7-4 分 类 变量 的 WOE 编码 分 箱 展示 图 
在 变量 进行 分 箱 时 ,一般 最 多 分 成 5 箱 , 且 分 箱 结果 必须 单调 ,否则 将 进行 水 了 
合并 或 重新 分 箱 。 下 面 逐 个 进行 调试 。 


Ñ 


1. 变量 “贷款 等 级 ”分 箱 


"gem gn 

data = data copy.copy() 

i= ' 贷 款 等 级 ' 

data[i] = data[i].apply(lambda x: 2 if 2<=x<5 else x) 
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data[i] = data[i].apply(lambda x: 3 if x>=5 else x) 
data - Ln odds(data, i, 'target') 

sns. pointplot(x= i, y= i- ' WOE', data= data) 
plt.xticks(rotation = 0) 

plt. show() 


变量 “贷款 等 级 "分 箱 结果 如 图 7-5 BER 


贷款 等 级 _WOE 
o 
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图 7-5 “贷款 等 级 "的 WOE 编码 分 箱 展示 图 


2. 变量 “过 去 6 个 月 内 被 查询 次 数 ”分 箱 


i = ' 过 去 6 个 月 内 被 查询 次 数 ' 

data[i] = data[i].apply(lambda x: 4 if x>3 else x) 
data = Ln odds(data, i, 'target') 

sns. pointplot(x= i, y= i* ' WOE', data= data) 

plt. xticks(rotation = 0) 

plt. show() 


变量 “过 去 6 个 月 内 被 查询 次 数 ” 分 箱 结果 如 图 7-6 所 示 。 
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图 7-6 “过 去 6 个 月 内 被 查询 次 数 ” 的 WOE 编码 分 箱 展示 图 
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3. 变量 “工作 年 限 ” 分 箱 


i= ' 工 作 年 限 ' 

data[i] = data[i].apply(lambda x: 1 if 1<=x<5 else x) 
data[i] = data[i].apply(lambda x: 2 if x» - 5 else x) 
data = Ln odds(data, i, 'target') 

sns.pointplot(x- i, y= i* ' WOE', data = data) 

plt. xticks(rotation = 0) 

plt. show() 


变量 “工作 年 限 ” 分 箱 结果 如 图 7-7 所 示 。 


0.03 
0.02 
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工作 年 限 


图 7-7 “工作 年 限 ” 的 WOE 编码 分 箱 展示 图 


4. 连续 变量 分 箱 
d) 变量 “总 贷款 笔 数 ”分 箱 


BEBUUEPHUEREHBHHUEUHEREHEEHEUEEEREERERHEEUUEEHEREEREUEUE 
* Step 3: 连续 变量 分 箱 
BEBUPPEEHUBHHEHUEUUHERREEHUEUEEEREEEEEHUUUHEEHUEEEEUUAE 
data = pd.read csv( ' 分 类 变量 分 箱 . csv') 


continuous var = list(set(continuous var) & set(feature selection lgb)) 


continuous var = [' 总 贷款 笔 数 '，' 每 月 还 款 金额 '，' 过 去 两 年 借款 人 逾期 30 天 以 上 的 数字 '， 


,贷款 金额， EMA, WR, A SURE, "额度 循环 使 用 率 
describe = data[continuous var].describe().T[['max', 'min']] 
ESEA 
i= ' 总 贷款 笔 数 ' 
sns. distplot(data[i][data[ 'target'] == 0].dropna(),color= 'blue') 
sns. distplot(data[i][data[ 'target'] == 1].dropna(),color- 'red') 
plt. show() 
bins = [- 1, 20, 30, 200] # 左 开 右 闭 ,如 果 可 能 出 现 0, 那 么 需要 以 -1 开始 
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cats = pd.cut(list(data[i]), bins, precision- 0) 

cats.value counts() 

data[i+ ' 组 别 '] = pd.Series(cats) 

data = Ln_odds(data, i+ ' 组 别 '，'target') 

sns. pointplot(x=i+ ' 组 别 ', Y=i+' 组 别 _WOE'，data = data. sort_values(i+ '£H9l| WOE', 
ascending = False) ) 

plt. show() 


变量 “总 贷款 笔 数 ”分 箱 结果 如 图 7-8 所 示 。 


(-1, 20] (20, 30] (30, 200] 
总 贷款 笔 数组 别 


图 7-8 “总 贷款 笔 数 ” 组 别 的 WOE 编码 分 箱 展示 图 
(2) 变量 “每 月 还 款 金额 ”分 箱 


i = ' 每 月 还 款 金 额 ' 

sns.distplot(data[i][data[ 'target'] == 0].dropna(),color= 'blue') 

sns.distplot(data[i][data[ 'target'] == 1].dropna(),color- 'red') 

plt.show() 

bins - [- 1, 300, 750, 2000] 

cats = pd.cut(list(data[i]), bins, precision- 0) 

cats.value counts() 

data[i+ ' 组 别 '] = pd.Series(cats) 

data = Ln odds(data, i+ ' 组 别 '，'target') 

sns.pointplot(x- i+ ' 组 别 ', y - i- '£H9l| WOE', data = data. sort_values(i+ ' 组 别 _WOE', 
ascending = False)) 

plt. show() 


变量 “每 月 还 款 金额 ”分 箱 结 果 如 图 7-9 所 示 。 
(3) 变量 “过 去 两 年 借款 人 逾期 30 天 以 上 的 数字 ?分 箱 


i = ' 过 去 两 年 借款 人 逾期 30 天 以 上 的 数字 ' 
sns.distplot(data[i][data[ 'target'] == 0].dropna(),color= 'blue') 
sns.distplot(data[i][data[ 'target'] == 1].dropna(),color- 'red') 
plt.show() 

bins = [- 1, 1, 50] 
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cats = pd.cut(list(data[i]), bins, precision- 0) 

cats.value counts() 

data[i+ ' 组 别 '] = pd.Series(cats) 

data = Ln odds(data, i+ ' 组 别 '，'target') 

sns. pointplot(x=i+ ' 组 别 ', y=i+ ' 组 别 _WOE', data= data. sort_values(i+ '£H9l| WOE', 
ascending - False)) 

plt.show() 
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图 7-9 “每 月 还 款 金 额 "组 别 的 WOE 编码 分 箱 展示 图 
变量 “过 去 两 年 借款 人 逾期 30 天 以 上 的 数字 ?分 箱 结果 如 图 7-10 所 示 。 


8 


-0.05 
-0.10. 
-0.15 
-0.20 


-0.25 
61,1] (1, 50] 
过 去 两 年 借款 人 逾期 30 天 以 上 的 数字 组 别 


过 去 两 年 借款 人 请 期 30 天 以 上 的 数字 组 别 _WOE 


图 7-10 “过 去 两 年 借款 人 逾期 30 天 以 上 的 数字 ”组 别 的 WOE 编码 分 箱 展示 图 
(4) 变量 “贷款 金额 "分 箱 


i = EH 

sns.distplot(data[i][data[ 'target'] == 0].dropna(),color- 'blue') 
sns.distplot(data[i][data[ target'] == 1].dropna(),color- 'red') 
plt. show() 

bins = [- 1, 10000, 20000, 50000] 

cats - pd.cut(list(data[i]), bins, precision- 0) 

cats.value counts() 

data[i+ ' 组 别 '] = pd.Series(cats) 
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data = Ln_odds(data, i+ ' 组 别 '，'target') 

sns. pointplot(x=i+ ' 组 别 ', y=i+ ' 组 别 _WOE', data= data. sort_values(i + ' 组 别 _WOE', 
ascending = False)) 

plt. show() 


变量 “贷款 金额 ”分 箱 结果 如 图 7-11 所 示 。 
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图 7-11 “贷款 金额 ”组 别 的 WOE 编码 分 箱 展示 图 
(5) 变量 “年 收入 ”分 箱 


i= 年 收入 ， 

sns.distplot(data[i][data[ 'target'] == 0].dropna(),color = 'blue') 

sns.distplot(data[i][data[ 'target'] == 1].dropna(),color- 'red') 

plt. xlim([0,1000000]) 

plt. show() 

bins = [- 1, 150000, 300000, 10000000] 

cats = pd.cut(list(data[i]), bins, precision- 0) 

cats.value counts() 

data[i+ ' 组 别 '] = pd.Series(cats) 

data = Ln odds(data, i+ '£H9', 'target') 

sns.pointplot(x- i+ ' 组 别 ', y - i ' 组 别 _WOE', data = data.sort values(i-* 'fH 9| WOE', 
ascending = False)) 

plt. show() 


变量 “年 收入 ?分 箱 结果 如 图 7-12 所 示 。 
(6) 变量 “利率 ”分 箱 


i= ' 利 率 ' 

sns.distplot(data[i][data[ 'target'] == 0].dropna(),color- 'blue') 
sns. distplot(data[i][data[ 'target'] == 1].dropna(),color- 'red') 
plt.show() 

bins = [0, 8, 13, 50] 

cats = pd.cut(list(data[i]), bins, precision- 0) 

cats.value counts() 


data[i+ ' 组 别 '] = pd.Series(cats) 
data = Ln odds(data, i+ ' 组 别 '，'target') 
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sns.pointplot(x- i+ ' 组 别 ', y=i+ ' 组 别 _WOE', data= data.sort values(i- ' 组 别 _WOE', 


ascending = False)) 
plt. show() 
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图 7-12 “年 收入 "组 别 的 WOE 编码 分 箱 展示 图 


变量 “利率 ”分 箱 结果 如 图 7-13 所 示 。 
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图 7-13 “利率 ”组 别 的 WOE 编码 分 箱 展 示 图 


(7) 变量 “月 负债 比 ” 分 箱 


i= "月 负债 比 ' 


sns. distplot(data[i][data[ 'target'] == 0].dropna(),color- 'blue') 
sns.distplot(data[i][data[ 'target'] == 1].dropna(),color- 'red') 


plt.xlim([0,200]) 

plt. show() 

bins - [- 1, 20, 1000] 

cats = pd.cut(list(data[i]), bins, precision- 0) 
cats.value counts() 

data[i+ ' 组 别 '] = pd.Series(cats) 

data = Ln odds(data, i+ ' 组 别 '，'target') 


sns. pointplot(x= i+ ' 组 别 ', y=i+ ' 组 别 _WOE', data= data. sort_values(i+ ' 组 别 _WOE', 
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ascending = False)) 
plt. show() 


变量 “月 负债 比 ” 分 箱 结果 如 图 7-14 所 示 。 
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图 7-14 “月 负债 比 ?组 别 的 WOE 编码 分 箱 展示 图 


(8) 变量 “额度 循环 使 用 率 ” 分 箱 


i = "额度 循环 使 用 率 ' 

sns.distplot(data[i][data[ 'target'] == 0].dropna(),color = 'blue') 

sns.distplot(data[i][data['target'] == 1].dropna(),color- 'red') 

plt. show() 

bins = [- 1, 50, 200] 

cats - pd.cut(list(data[i]), bins, precision- 0) 

cats.value counts() 

data[i+ ' 组 别 '] = pd.Series(cats) 

data = Ln_odds(data, i+ ' 组 别 '，'target') 

sns.pointplot(x- i+ ' 组 别 ', y=i+ ' 组 别 _WOE', data = data. sort_values(i+ ' 组 别 _WOE', 
ascending = False)) 

plt. show() 


变量 “额度 循环 使 用 率 ” 分 箱 结果 如 图 7-15 所 示 。 


"保存 文件 
col = [] 
for i in list(data. columns): 
if i.find(' WOE')« 0: 
col. append( i) 
data = data[col] 
data. to_csv( ' 分 箱 完成 . csv'，index = False, encoding- 'utf - 8') 
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图 7-15 “额度 循环 使 用 率 ” 组 别 的 WOE 编码 分 箱 展示 图 


7.3 计算 WOE 5 IV 值 


证 据 权重 (weight of evidence, WOE) 用 于 计算 每 箱 的 好 坏 比 , WOE 的 数值 越 
大 ,表明 每 箱 中 的 好 样本 越 多 。IV 值 就 是 WOE 值 对 应 的 信息 浓度 。 


PERBRRBHRHHEEHHEREEHEHUEEEEREEEEEEEEEHERERHERRRUEUUUUAE 
# Step 4: 计算 WOE fil IV 
PRRRRRHHHHAH RRR RRR HH RR REE EEE RRR R RARER eR RRR RRS 
def CalcWOE(df, col, target): 
total = df.groupby([col])[target].count() 
total = pd.DataFrame(('total': total]) 
bad - df.groupby([col])[target]. sum() 
bad - pd.DataFrame(('bad': bad)) 
regroup = total.merge(bad, left index- True, right index- True, how- 'left') 
regroup.reset index(level- 0, inplace = True) 


N = sum(regroup[ 'total']) # 计算 总 样本 数 

B = sum(regroup[ 'bad’]) # 计 算 坏 样本 数 
regroup['good'] = regroup['total'] — regroup[ 'bad'] 
G-N-B 


regroup['bad pcnt'] = regroup[ 'bad'].map(lambda x: x * 1. 0/B) 
regroup['good pcnt'] = regroup[ 'good'].map(lambda x: x * 1.0 / G) 
regroup[ WOE'] = regroup. apply( lambda x: np. log(x.good pont * 1.0/x. bad_pent), axis = 1) 
WOE dict = regroup[[col, WOE']].set index(col).to dict(orient = 'index') 
for k, v in WOE dict. items(): 

WOE dict[k] = v['WOE'] 

IV = regroup. apply(lambda x: (x.good pcnt- x. bad pent) * 

np. log(x.good pcnt * 1.0/x. bad pcnt), axis- 1) 

IV - sum(IV) 

return ("WOE": WOE dict, 'IV': IV) 
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all var = [] 
for i in list(data. columns): 
if i.find( ' 组 别 ') > 0: 
all var.append(i) 
all var = all var*categorical var 
WOE dict = {} 
IV dict - () 
for var inall var: 
woe iv = CalcWOE(data, var, 'target') 
WOE dict[var] = woe iv[ 'WOE'] 
IV dict[var] = woe iv['IV'] 


现在 预览 一 下 数据 ,如 图 7-16 所 示 。 


In [36]: data.head() 
out [36]: 


wx 
on 22 I sa wn " 

«nz ws nn B5 ome mw g mx zm SERFS pne sa) x» Bà OW 

"- Be 年 收入 ARBRE . target ARMOR qut wm 
más gn mt s ms z na tu mu» wu» a 

a Wem feet) a) xu 

* ao a » an » : 

(10000, 1, © Q6 (3 

€ 790 ss% 178 3078 20 190000 so0 1 1 mo 907 99 n We NON M 

e. o. (10000, — t Q t 0, 

1 532 99150 575 1891 210 130009 1018000 1 1 ose OR mama uit um 

e € H, a e e e 

2 1049 16249 473 1101 90 5000 750000 1 2 o -2 0 & d C) appo 150000 志 2o) Soj 

go qo. (10000, 1 € A 

3 532 33428 344 1891 230 111000 80000 1 1 ow 0 & enu Goo sowo e o Sah 

Qo (750, (^ (20000, G03 e 

4 2080 78884 286 1317 250 250000 6wa 2 3 DO Dc es Pe e HERE 

5 rows x 22 columns. 


图 7-16 评分 卡 数据 预览 展示 图 


7.4 逻辑 回归 建 模 


HEH (Logistic Regression) ,虽然 名 字 上 带 有 “回归 ”的 字样 ,但 其 实质 却 是 
一 种 常用 的 分 类 模型 ,主要 用 于 二 分 类 问题 。 逻 辑 回归 可 以 通过 logistics 函数 ,将 特 
征 空间 映射 成 某 些 事件 发 生 的 概率 。 计 算出 变量 WOE 值 和 1IV 值 之 后 ,就 可 以 对 
WOE 变量 进行 logistics 映射 ,并 将 其 转换 为 逾期 概率 。 


BERRSSEEUUHABRRHAREEEHUEEERHUREEEREEEHUHUHAHAHAHEEE HH n 

# Step 5: 逻辑 回归 建 模 
BERBBEEEUEHHHBBHHUREREREEUERUEEEEHHEEEHUBUEBUAHUHH HH 

"选取 IV> = 0.02 的 变量 '… 

IV dict sorted = sorted(IV dict. items(), key = lambda x: x[1], reverse = True) 
IV name - [i[0] for i in IV dict sorted] 

IV values - [i[1] for i in IV dict sorted] 
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high IV = {k:v fork, v in IV dict.items() if v>= 0.02) 
high IV sorted = sorted(high IV. items(), key = lambda x:x[1], reverse = True) 
print (' 总 共有 ', len(high_IV_sorted), ' 个 变量 的 IV>= 0.02") 


运行 结果 如 下 : 


总 共有 6 个 变量 的 IV>= 0.02 
"li wos 变量 … 
short list = high IV.keys() 
short list 2 - [] 
for var in short list: 
newVar - var * ' WOE' 
data[newVar] = data[var].map(WOE dict[var]) 
Short list 2.append(newVar) 
"计算 相关 系数 矩阵 ,删除 与 重要 业务 变量 相关 性 较 强 的 自 变量 '”" 
dataWOE = data[short list 2] 
corr = round(dataWOE. corr(),2) 
mask = np.zeros_like(corr, dtype = np. bool) 
mask[np. triu_indices_from(mask)] = True 
plt. figure(figsize = (5, 5)) 
cmap = sns.diverging palette(220, 10, as_cmap = True) 
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sns. heatmap(corr, mask = mask, cmap- cmap, center- 0, annot = True, cbar kws = ("shrink": .5}) 


plt. show() 


运行 结果 如 图 7-17 所 示 。 


每 月 还 款 金 额 组 别 _WOE 


贷款 金额 组 别 _WOE 图 1.0 


利率 组 别 _WOE 0.11 0.16 


月 负债 比 组 别 _WOE 0.02 002 014 


贷款 等 级 WOE 011 0.13 0.13 00 


过 去 6 个 月 内 被 查询 次 数 _WOE 0.02 


o 
En 
a 
e 
2 
e 
rx} 


每 月 还 款 金 额 组 别 _WOE 
贷款 金额 组 别 _WOE 
利率 组 别 _WOE 

月 负债 比 组 别 _WOE 


过 去 6 个 月 内 被 查询 次 数 _WOE 


图 7-17 6 个 变量 的 WOE 相关 系数 图 
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计算 相关 系数 之 后 ,还 需要 考虑 多 重 共 线性 问题 。 评 价 多 重 共 线性 的 指标 主要 
是 方差 膨胀 因子 。 方 差 膨 胀 因子 (Variance Inflation Factor,VIF) 是 指 解释 变量 之 间 
存在 多 重 共 线 性 时 的 方差 与 不 存在 多 重 共 线 性 时 的 方差 之 比 。VIF 值 越 大 ,代表 共 
线性 越 严 重 。 经 验 判断 方法 表明 : 当 0 二 VIF 二 10, 不 存在 多 重 共 线 性 ; 当 10< 
VIF<100, f£ fe 98 8 Z EHRE; 当 VIF 之 100, 存 在 严重 多 重 共 线 性 。 


""" 选 择 方差 共 线 性 < 10 的 变量 """ 
col = np.array(data[ short list 2]) 
from statsmodels.stats.outliers influence import variance inflation factor as vif 
for i in range(len(short list 2)): 
print ('() VIF 是 {}'. format(short list 2[i], vif(col, i))) 


运行 结果 如 下 : 


每 月 还 款 金 额 组 别 _WOE VIF 是 3.1504765201473144 

贷款 金额 组 别 _WOE VIF 是 3.1868414919401897 
利率 组 别 _WOE VIF 是 2.1775374815158592 

月 负债 比 组 别 _WOE VIF 是 1.0255937275175637 
贷款 等 级 _WOE VIF 是 2.1297714474712253 

过 去 6 个 月 内 被 查询 次 数 _WOE VIF 是 1.0298508719860746 


在 确定 变量 之 间 不 存在 多 重 共 线性 之 后 ,就 要 对 变量 进行 显著 性 分 析 , 删 除 P 值 
不 显著 的 变量 。 


"判断 显著 性 """ 
X = data[short list 2] 
X['intercept'] = [1] * X. shape[0] 
y = data['target'] 

import statsmodels.api as sm 

lr sm- sm.Logit(y, X).fit() 

lr sm.summary() 


运行 结果 如 图 7-18 所 示 。 
最 后 建 模 ,代码 如 下 : 


X 7 data[short list 2] 

y = data['target'] 

from sklearn.cross validation import train test split as sp 

X train, X test, y train, y test = sp(X, y, test size- 0.3, random state - 1) 
from sklearn.linear model import LogisticRegression as LR 
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Out [51]: 


Logit Regression Results 
Dep. Variable: target No. Observations: 103434 
Model: Logit Df Residuals: 103427 
Method: MLE Df Model: 6 
Date: Sun 18 Mar 2018 Pseudo R-squ.: 0.04845 
Time: 16:33:07 Log-Likelihood: -27605. 
converged: True LL-Null: -29010. 


过 去 6 个 月 内 被 查询 次 数 _WOE -0.6137 0.053 -11.500 0.000 -0.718 -0.509 
intercept -24398 0.012 -202.610 0,000 -2463 -2.416 


图 7-318 6 个 变量 的 显著 性 结果 展示 图 


lr = LR(random state = 1) 

lr.fit(X train, y train) 

from sklearn import metrics 

y test label = lr.predict(X test) 

y test value = lr.predict proba(X test)[:, 1] 

print( ' 测 试 集 准确 率 是 : (:.2* )'.format(metrics.accuracy score(y test, y test label))) 
print( ' 测 试 集 AUC JÈ: (:.4)'.format(metrics.roc auc score(y test, y test value))) 


运行 结果 如 下 : 


测试 集 准确 率 是 : 91.82% 
测试 集 AUC 是 : 0.6683 


7.5 创建 评分 卡 


在 确定 模型 的 准确 度 和 AUC. 的 可 接受 范围 后 ,可 以 对 每 个 人 模 变量 进行 单 变量 
得 分 计算 ,从 而 求 出 变量 不 同 取 值 下 的 得 分 。 


并 并 并 并 并 并 并 并 林 并 并 并 并 并 并 并 并 并 并 并 并 并 并 并 闪失 并 并 并 并 并 并 并 并 并 并 提 并 并 并 并 并 并 并 # 并 并 并 并 并 并 并 并 
# Step 6: 创建 评分 卡 
PEPEBREHUBUUEHHHEHHEEUHUUHEEEEEBUUEEUUEHHEBEUEUUUE UAE 
b = lr.intercept SRB 
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coe - lr.coef 井 系数 

a0 = coe[0][0] # 第 一 个 变量 的 系数 

al = coe[0][1] 

a2 = coe[0][2] 

a3 = coe[0][3] 

a4 = coe[0][4] 

a5 = coe[0][5] 

A= 500 

PDO = 20 # 每 增加 20 分 ,odds 增加 1 倍 


B = PDO/np. log(2) 
""' 创 建 每 月 还 款 金额 单 变量 得 分 '" 
WOE dict[ ' 每 月 还 款 金 额 组 别 '] # 获取 字典 key, 即 变量 水 平 值 
woel = WOE_dict[ ' 每 月 还 款 金 额 组 别 ']['( -1,300]'] 
scorel = - (B * a0* woel) + (A-B* b)/dataWOE. shape[0] 
woe2 = WOE dict[ ' 每 月 还 款 金 额 组 别 ']['(300, 750]'] 
score2 = - (B * a0 * woe2) + (A— Bx*b)/dataWoE. shape[0] 
woe3 = WOE dict[ 每 月 还 款 金额 组 别 ']['(750，2000] '] 
score3 = - (B * a0 * woe3) + (A-B* b)/dataWOE. shape[0] 
"Sp SOL 语句 
case 
when 0<= ' 每 月 还 款 金 额 '<= 300 then 7 
when 300 < ' 每 月 还 款 金 额 '<= 750 then -1 
when ' 每 月 还 款 金额 '> 750 then -11 
else 0 # 以 业务 逻辑 或 补缺 规则 来 定 
"epit 贷款 金额 单 变量 得 分 '”" 
WOE dict[ ' 贷 款 金 额 组 别 '] 
woel = WOE dict[ ' 贷 款 金 额 组 别 ']['( — 1, 10000]'] 


scorel = - (B * al* woel) + (A-B* b)/dataWOE. shape[0] 
woe2 = WOE dict[ ' k£ 84H ZI '][ (10000, 20000]'] 

score2 = - (B * al * woe2) + (A-B* b)/dataWOE. shape[0] 
woe3 = WOE dict[ ftd 4 i48 E (20000, 50000]'] 

Score3 = - (B * al * woe3) + (A-B * b)/dataWOE. shape[0] 
"对 应 的 SQL 语句 

case 


when 0 <= ' 贷 款 金 额 '<= 10000 then -3 
when 10000 < ' 贷 款 金额 '<= 20000 then 1 
when ' 贷 款 金额 '> 20000 then 4 

else0 

"olg 利率 单 变量 得 分 '” 

WOE dict[ ' 利 率 组 别 '] 

woel = WOE dict[ ' 利 率 组 别 ']['(0, 8]'] 


scorel = —(B * a2* woel) + (A-B * b)/dataWOE. shape[0] 
woe2 = WOE dict[ ' 利 率 组 别 '][ (8, 13]'] 

score2 = —(B * a2 * woe2) + (A- B* b)/dataWOE. shape[0] 
woe3 = WOE dict[ ' 利 率 组 别 ']['(13，50] '] 

score3 = - (B * a2 * woe3) + (A- B* b)/dataWOE. shape[0] 
"对 应 的 SOL 语句 

case 


when 0 < ' 利 率 '<= 8 then 25 
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when 8 < ' 利 率 '<= 13 then 8 
when ' 利 率 '> 13 then -8 
else0 


"ep 月 负债 比 单 变 量 得 分 '”" 
WOE. dict[ ' 月 负债 比 组 别 '] 
woel = WOE_dict[' 月 负债 比 组 别 ']['( -1, 20]'] 
scorel = - (B * a3* woel) + (A-B* b)/dataWOE. shape[0] 
woe2 = WOE dict[' f fiket 9I] '][ (20, 1000] *] 
score2 = - (B * a3 * woe2) + (A-B* b)/dataWOE. shape[0] 
MPAA) SQL 语句 
case 
when 0 « ' 月 负债 比 '<= 20 then 2 
when ' 月 负债 比 > 20 then -3 
else 0 


"创建 贷款 等 级 单 变量 得 分 '”" 
WOE dict[ ' 贷 款 等 级 '] 
woel = WOE dict[ ' 贷 款 等 级 '][1] 
scorel = —(B * a4* woel) + (A- Bx*xb)/dataWOE. shape[0] 
woe2 = WOE dict[ ' 贷 款 等 级 '][2] 
score2 = —(B * a4 * woe2) + (A-B* b)/dataWOE. shape[0] 
woe3 = WOE dict[ ' 贷 款 等 级 '][3] 
score3 = - (B * a4 * woe3) + (A-B* b)/dataWOE. shape[0] 
"对 应 的 SOL 语句 
case 
when ' 贷 款 等 级 ' = 1 then 20 
when ' 贷 款 等 级 ' = 2 then 0 
when ' 贷 款 等 级 ' = 3 then -17 
else0 


"on 


"创建 过 去 6 个 月 内 被 查询 次 数 AE HL 

WOE dict[ ' 过 去 6 个 月 内 被 查询 次 数 '] 

woel = WOE_dict[ ' 过 去 6 个 月 内 被 查询 次 数 '][0] 

scorel = - (B * a5* woel) + (RAR-Bxb)/dataWOE. shape[0] 

woe2 = WOE_dict[ ' 过 去 6 个 月 内 被 查询 次 数 '][1] 

score2 = —(B * a5 * woe2) + (A— B* b)/dataWOE. shape[0] 

woe3 = WOE dict[ ' 过 去 6 个 月 内 被 查询 次 数 '][2] 

score3 = - (B * a5 * woe3) + (A-B* b)/dataWOE. shape[0] 

woe4 = WOE dict[' 过 去 6 个 月 内 被 查询 次 数 '][3] 

score4 = —(B * a5 * woe4) + (A-B * b)/dataWOE. shape[0] 

woe5 = WOE_dict[ ' 过 去 6 个 月 内 被 查询 次 数 '][4] 

score5 = — (B * a5 * woe5) + (A- B* b)/dataWOE. shape[0] 

"对 应 的 SOL 语句 

case 
when ' 过 去 6 个 月 内 被 查询 次 数 ' 
when ' 过 去 6 个 月 内 被 查询 次 数 ' 
when ' 过 去 6 个 月 内 被 查询 次 数 ' 
when ' 过 去 6 个 月 内 被 查询 次 数 ' 
when ' 过 去 6 个 月 内 被 查询 次 数 ' 


else0 


1 then 3 

2 then 一 2 
3 then -5 
4 then -10 
5 then -12 


Wow wow ow" 
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如 此 ,可 根据 case when 算出 每 个 区 间 的 得 分 ,然后 将 得 分 相 加 , 即 可 得 到 总 分 ， 
该 总 分 即 为 金融 申请 评分 卡 的 最 终 分 数 。 


SELECT LOAN NO, (每 月 还 款 金额 + 贷款 金额 + 利率 + 月 负债 比 + 贷款 等 级 + 过 去 6 个 月 内 被 查询 
次 数 ) AS risk score 
FROM 
(SELECT 
LOAN NO, 
CASE 
WHEN 0 <= 每 月 还 款 金额 <= 300 THEN 7 
WHEN 300 < 每 月 还 款 金额 <= 750 THEN - 1 
WHEN 每 月 还 款 金额 > 750 THEN 一 11 
ELSE 0 # 以 业务 逻辑 或 补缺 规则 来 定 
END 每 月 还 款 金额 ， 
CASE 
WHEN 0 <= 贷款 金额 <= 10000 THEN -3 
WHEN 10000 < 贷款 金额 <= 20000 THEN 1 
WHEN 贷款 金额 > 20000 THEN 4 
ELSE 0 
END 贷款 金额 ， 
CRSE 
WHEN 0 < 利率 <= 8 THEN 25 
WHEN 8 < 利率 <= 13 THEN 8 
WHEN 利率 > 13 THEN -8 
ELSE 0 
END 利率 ， 
CRSE 
WHEN 0 < 月 负债 比 <= 20 THEN 2 
WHEN 月 负债 比 > 20 THEN - 3 


WHEN 贷款 等 级 = 1 THEN 20 
WHEN 贷款 等 级 = 2 THEN 0 
WHEN 贷款 等 级 =3 THEN — 17 
ELSE 0 


WHEN 过 去 6 个 月 内 被 查询 次 数 

WHEN 过 去 6 个 月 内 被 查询 次 数 

WHEN 过 去 6 个 月 内 被 查询 次 数 

WHEN 过 去 6 个 月 内 被 查询 次 数 

WHEN 过 去 6 个 月 内 被 查询 次 数 

ELSE 0 

END 过 去 6 个 月 内 被 查询 次 数 ， 

FROM 数据 库 中 对 应 的 表 ) GROUP BY LOAN NO 


1 THEN 3 

2 THEN 一 2 
3 THEN - 5 
4 THEN — 10 
5 THEN — 12 
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7.6 申请 评分 卡 的 评价 、 使 用 与 监控 


评分 卡 创建 成 功 后 ,该 如 何 评价 、 使 用 和 监控 呢 ? 

评价 方法 除了 二 分 类 模型 通用 的 auc, ks 指标 以 外 ,还 有 区 分 度 曲线 、 拟 合 度 曲 
线 。 使 用 的 主要 方法 是 风险 评分 分 布 表 。 

评分 卡 监控 主要 从 两 方面 来 衡量 ,一 个 是 稳定 性 指标 ,一 个 是 有 效 性 指标 。 

模型 的 稳定 性 指标 主要 是 指 PSI 值 ,一 般 来 说 ,如 果 PSI 值 在 0. 25 以 下 , 则 说 明 
模型 是 稳定 的 。 除 此 以 外 ,还 可 以 做 出 变量 稳定 性 分 析 报 告 和 评分 分 布 报告 。 

模型 的 有 效 性 指标 主要 是 指 kendalls’ tau 值 , 值 越 接近 1, 说 明和 逾期 率 在 分 数 上 
的 单调 下 降 性 越 明显 ,分 数 越 有 效 。 除 此 以 外 ,还 可 以 做 出 模型 拟 合 度 曲线 .逾期 拖 
欠 分 布 报告 与 模型 区 分 度 检验 报告 。 


7.7 小 结 
本 章 主要 介绍 了 申请 评分 卡 创建 的 整个 过 程 , 从 好 坏 样本 的 定义 到 最 终 的 各 变 


量 得 分 都 进行 了 详细 讲解 。 在 建 模 过 程 中 ,一 定 要 细心 地 处 理 数据 , 搞 清楚 业务 让 
Tib ,这 样 得 出 的 评分 对 于 业务 才 具 有 实际 意义 。 
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在 实际 应 用 中 ,创建 社交 网 络 需要 专门 的 图 数据 库 ,其 中 Neo4j à 
就 是 最 常用 的 图 数据 库 之 一 。Neo4j 最 大 的 好 处 就 是 可 以 快速 地 、 国 呈 生 请 肖 
直观 地 匹配 节点 与 节点 之 间 的 关系 。Neodj 节点 间 的 关系 图 如 ”视频 讲解 
图 8-1 所 示 ,中 间 的 节点 连接 了 很 多 其 他 的 节点 。 


图 8-1 Neo4j 节点 间 的 关系 图 


在 金融 领域 ,可 以 利用 社交 网 络 查找 失 联 用户 、 发 现 欺 诈 社 区 、 找 到 活跃 中 介 。 
在 其 他 领域 ,可 以 用 Neo4j 构造 实时 推荐 引擎 ,创建 六 度 人 脉 社交 网 络 ,创建 工商 企 
业 控制 人 图 谱 等 。 本 书 介绍 的 Neo4j, 一 方面 是 各 大 公司 越 来 越 看 重 的 社交 网 络 图 
谱 , 另 一 方面 是 可 以 使 用 Python 与 Neo4j 数据 库 进行 连接 ,能 够 很 方便 地 与 数据 库 
进行 交互 ,只 需要 下 载 一 个 第 三 方 包 Py2neo 即 可 ,安装 语句 为 : pip install py2neo。 
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8.1 Neo4j 的 下 载 与 安装 


Neod 有 很 多 版 本 ,有 企业 服务 器 版 ,有 社区 版 ,还 有 个 人 桌面 版 。 一 般 来 说 ,如 果 仅 
是 个 人 单机 使 用 ,使 用 个 人 桌面 版 是 最 方便 的 ; 如 果 需 要 运 维 人 员 部 署 到 服务 器 中 , 则 需 


要 下 载 安装 社 


区 版 ; 如 果 数 据 量 特别 大 ,那么 可 能 就 要 付费 购买 专用 企业 服务 器 版 了 。 


Neo4j 的 官方 链接 地 址 为 : https://neo4j. com/ ,如 图 8-2 所 示 , 单 击 右 上 角 的 
Download 按钮 , 即 可 进入 下 载 页 面 ,如 图 8-3 所 示 , 单 击 左 下 角 的 DOWNLOAD NEO4J 
SERVER 按钮 ,可 以 看 到 更 多 的 Neo4j 版 本 ,如 图 8-4 所 示 。 安 装 步骤 详 见 附录 D. 


How Neo4j enables real- 
time, personalized 


ve neoaj 


IMMEN 


recommendations for the 
world's largest retailer 


图 8-2 Neo4j 官方 首页 展示 图 


(neos Q ine 
Download Neo4j 


Experience Neo4j on Your 
Desktop 


Free. Get Started Todey 


图 8-3 Neo4j 官方 下 载 链接 页 面 展 示 图 
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Neo4j Pre-releases 


Get an Early Peek at Neo4j 3.5 


Neo4j 3.5.0 alpha01 - For Development Only Release Notes 
By downloading and installing this pre-release software, you agree to the terms of the Pre-Release Agreement for Neo4j Software 
and will be automatically enrolled in our feedback program. Check out our User Experience Improvement Program for details 


Community Edition Enterprise Edition 
Neo4j 3.5.0 alpha01 (Windows, zip) Neo4j 3.5.0 alpha01 (Windows, zip) 
SHA-256 SHA-256 
Neo4j 3.5.0 alpha01 (Linux/Mac, tar) Neo4j 3.5.0 alpha01 (Linux/Mac, tar) 
SHA256 SHA-256 


Neo4j Desktop 


Mac Neo4j Desktop (dmg) 
Linux Neo4| Desktop (Applmage) 
Windows Neo4j Desktop (exe) 


图 8-4 Neo4j 不 同 版 本 页 面 展示 图 


Community Edition 是 社区 版 ,Enterprise Edition 是 企业 版 ,Neo4j Desktop 是 桌 
面 版 ,Neo4j Pre-releases 是 预 发 行 的 最 新 版 。 一 般 来 说 ,下 载 稳定 版 本 即 可 , 切 勿 讶 
目 追 求 最 新 版 。 本 例 下 载 的 是 Mac 版 的 Neo4j-community-3. 3. 2-unix. tar, Neo4j 
需要 jdk 8 以 上 才能 运行 ,所 以 需要 安装 jdk 8。jdk 8 的 具体 安装 方法 详 见 附录 E. 

配置 好 环境 以 后 ,在 Mac 下 打开 Neodj 的 命令 是 . /neo4j start, 如 图 8-5 所 示 。 


zhaikundeiMac:bin zhaikun$ ./neo4j start 
Active database: graph.db 
Directories in use: 


home: /Users/zhaikun/neo4j 

config: /Users/zhaikun/neo4j/conf 

logs: /Users/zhaikun/neo4j/logs 
plugins: /Users/zhaikun/neo4j/plugins 
import: /Users/zhaikun/neo4j/import 

data: /Users/zhaikun/neo4j/data 
certificates: /Users/zhaikun/neo4j/certificates 
run: /Users/zhaikun/neo4j/run 


Starting Neo4j. 

Started neo4j (pid 1280). It is available at http://localhost:7474/ 
There may be a short delay until the server is ready. 

See /Users/zhaikun/neo4j/logs/neo4j.log for current status. 
zhaikundeiMac:bin zhaikun$ ff 


图 8-5 Mac 版 Neo4j 启动 界面 图 
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启动 成 功 以 后 ,在 浏览 器 中 打开 链接 地 址 : http://localhost:7474/ ,如 图 8-6 所 示 。 


Connect to Neo4j 


图 8-6 Neodj 配置 连接 的 主 界面 图 
初始 用 户 名 和 密码 都 是 Neo4j ,首次 打开 需要 修改 密码 ,如 图 8-7 所 示 。 


Connect to Neo4j "— 


p 


图 8-7. Neo4j 重 置 密码 界面 图 
重 置 密码 后 ,就 进入 了 如 下 界面 ,如 图 8-8 所 示 。 


v NEOL) tam about Neos} Jump into code Monitor the system 


图 8-8 Neo4j 配置 连接 完成 界面 图 
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想 要 使 用 Neo4j 中 文 版 的 读者 ,可 以 访问 http://www. we-yun. com/ ,下载 中 文 
版 的 进行 练习 。 


8.2 图 形 界面 介绍 


相信 大 家 一 定 迫 不 及 待 地 想 看 看 图 数据 库 是 个 什么 样 的 效果 。 这 边 先 举 个 简单 
的 例子 : 单 击 中 间 框 Write Code 按钮 ,然后 单 击 create a graph 按钮 ,会 出 现 movie 
graph 案例 介绍 , 往 右 翻 页 就 是 相关 代码 ,运行 代码 后 的 结果 如 图 8-9 所 示 。 


$ CREATE (Thetatrix iMovie (title:'The Matr: 


ix", released: 1999, tagline; Welcome to the Real World") CREATE (Keanu:Person (name: 


图 8-9 Neo4j 自 带 图 例 界面 图 


由 图 8-9 可 以 看 出 ,每 个 圆圈 代表 一 个 节点 ,每 条 边 代表 着 一 个 关系 。 左 上 和 角 蓝 
色 图 标 “person” 表 示 用 蓝 色 代表 “人 物 ”, 绿 色 图 标 “*movie” 表 示 用 绿色 代表 “电影 ”。 
单 击 蓝 色 人 物 图 标 ,如 图 8-10 所 示 。 


Qm oc. c sce 


8-10 Neo4j 自 带 图 例 单 击 人 物 图 标 后 的 界面 图 
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最 下 方 出 现 了 一 行 功能 栏 ,表示 可 以 选择 颜色 .大 小 和 显示 的 内 容 。 调 整 图 像 大 
小 和 颜色 之 后 ,所 得 结果 如 图 8-11 所 示 。 


图 8-11 Neo4j 自 带 图 例 调 整 后 的 界面 图 
大 家 会 发 现 人 物 图 标 变 大 了 ,颜色 也 变 了 。 这 样 的 功能 可 以 很 方便 地 标识 出 不 
同 的 节点 ,更 加 直观 易 懂 。 
单 击 节点 ,如 图 8-12 所 示 。 


es 


(B ios 86 bom: 1905. name: Lara Wachowski 
图 8-12 Neo4j 自 带 图 例 单 击 节点 后 的 界面 图 


这 时 ,下 面 的 功能 区 会 显示 节点 的 属性 。 
同 理 , 单 击 关系 ,下 面 的 功能 区 也 会 显示 关系 的 属性 。 如 图 8-13 所 示 。 


w0- 
an 
f 


<id>:397 roles: Zachry.Dr. Henry Goose,lsaac Sachs, Dermot Hoggins 


8-13 Neo4j 自 带 图 例 单 击 关系 后 的 界面 图 
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8.3 Cypher 语言 


Neo4j 是 一 个 NoSQL 数据 库 , 用 的 查询 语言 是 Cypher 语言 ,与 SQL 语句 非常 
相似 。 本 节 将 介绍 Cypher 的 基本 语法 。 


Cypher 是 一 种 声明 式 图 查询 语言 ,具有 语法 简单 .功能 强大 等 优点 。 通 常 ,学 习 
过 SQL 语句 的 读者 可 以 很 轻易 地 学 会 Cypher 语言 的 用 法 。 


1. Cypher 语言 常用 关键 词语 法 
Cypher 语言 常用 的 关键 词 有 4 个 ,其 语法 的 详细 教程 可 在 Neo4j 客户 端 查看 。 


当 Neo4j 连接 配置 完成 后 ,在 界面 最 上 方 输入 “: help cypher”, 如 图 8-14 所 示 。 
Cypher 语言 各 关键 词 对 应 语法 如 图 8-15 所 示 。 


:help cypher 


$ ;play start 


@neoxj 


What do people do 
with Neo4j? 


Copyright © 2002-2017 


图 8-14 Neo4j 中 输入 “ :help cypher” 的 界面 图 
2. Cypher 语言 常用 关键 词 的 作用 与 用 法 


(D CREATE 的 作用 一 一 创建 
创建 节点 : 


CREATE (n (name: $ value]) 
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$ :help cypher 次 | 玉 |X 
Cypher Cypher is Neo4js graph query language. Working with a graph is all about understanding patterns of 
yP data, which are central to Cypher queries. 
A graph query language Use MATCH clauses for reading data, and CREATE or MERGE for writing data. 


Guide 
Bas form of a Cypher read statement. (Not executable} 


图 8-15. Cypher 语言 各 关键 词 对 应 语法 信息 界面 图 
创建 关系 : 


(2) MATCH 的 作用 一 一 查询 匹配 
查询 节点 : 


查询 路 径 : 


查询 具有 属性 的 节点 : 


(3) WHERE 的 作用 一 一 条 件 选择 


(4) LOAD CSV 的 作用 一 一 导入 文件 
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8.4  Neo4j 案例 1 一 一 (天 龙 八 部 ) 的 人 物 关系 分 析 


本 车 将 以 《天龙 八 部 ) 这 本 小 说 为 例 ,讲解 一 下 Neo4j 的 具体 使 用 方法 。 


"ACIE 
using periodic commit 1000 
load csv with headers from 'file:///tianlongbabu.csv'as line 


merge (n1: A {姓名 :line. Source] ) // 创 建 源 节点 
merge (n2: 人 物 {姓名 :line. Target}) // 创 建 目标 节点 
merge (n1) - [r: 相 识 ] ->(n2) // 创 建 关 系 


on create set r.weight = toInt(line. Weight) // 添 加 关系 属性 weight 
将 天 龙 八 部 数据 的 文件 放 在 Neo4j 文件 夹 下 的 import 文件 夹 里 ,如 图 8-16 和 
图 8-17 所 示 。 


加 neo4j 
El-25 mje ic Q 搜索 


mr "xr w ot et m 


LICENSE.txt — LICENSES.bd NOTICE.txt README.txt  UPGRADE.txt certificates 


图 8-16 Neo4j 的 文件 结构 展示 图 


E import 
EJ- mw m- #- Q 搜索 


tianlongbabu.csv 


图 8-17. 天 龙 八 部 数据 放 在 import 文件 夹 下 的 展示 图 
在 浏览 器 中 打开 链接 地 址 : http//localhost:7474/, 单 击 中 间 框 Write Code f 
钮 ,输入 如 图 8-18 所 示 的 代码 ,导入 文件 。 
导入 结果 为 导入 了 1164 个 标签 .1164 个 节点 ,设置 了 9934 个 属性 ,创建 了 8770 
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using periodic commit 1000 

load csv with headers from 'file:///tianlongbabu.csv' as line 
merge (n1: A] {姓名 :line.Source}) // 创 建 源 节点 

merge (n2: 人 物 {姓名 :line.Target}) // 创 建 目标 节点 

merge 〈(n1)-[r: 相 识 ]->(n2) // 创 建 关系 

on create set r.weight = toInt(line.Weight) // 添 加 关系 属性 weight 


sing periodic commit 1000 load csv with headers from 'file:///tianlongbabu.csv' as line merg. — ^ — «^ 


| Added 1164 labels, created 1164 nodes, set 9934 properties, created 8770 relationships, completed after 2378 ms. 


图 8-18 导入 数据 之 后 的 结果 展示 图 
下 面 预览 一 部 分 数据 ,让 大 家 有 个 直观 的 印象 ,如 图 8-19 所 示 。 


9 0-6 
= © 
图 8-19 导入 数据 之 后 的 节点 预览 展示 图 


图 数据 库 最 重要 的 应 用 就 是 进行 社交 网 络 分 析 , 应 用 如 下 。 


match p= (nl1{ 姓 名 :' 木 婉 清 '}) -[*..1] - (n2{ 姓 名 :' 阿 朱 '}) return p limit 10 
运行 结果 如 图 8-20 所 示 。 说 明 木 婉 清 与 阿 朱 没有 直接 认识 。 
(no changes, no records) 


8-20 ” 木 婉 清 与 阿 朱 的 一 度 人 脉 结果 图 
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二 度 人 脉 。 


match p= (ni{ 姓 名 : ' 木 婉 清 '}) -[*..2] - (n2{ 姓 名 :' 阿 朱 '}) return p limit 10 


运行 结果 如 图 8-21 所 示 。 


图 8-21 木 婉 清 与 阿 朱 的 二 度 人 脉 结果 图 


说 明 木 婉 清 想 认识 阿 朱 可 以 通过 “ 段 氏 “王语嫣”“ 钟 录 ” 等 人 。 金 融 上 常用 的 是 
一 度 和 二 度 人 脉 ,再 扩展 下 去 ,其 实际 意义 不 是 很 大 , 感 兴趣 的 读者 可 以 继续 扩展 。 
最 短路 径 : 


match p= shortestpath( (nl{ 姓 名 : ' 木 婉 清 '}) -[*..6] - (n2{ 姓 名 :' 阿 朱 '}) ) return p 


运行 结果 如 图 8-22 所 示 。 


8-22 木 婉 清 与 阿 朱 认 识 的 最 短路 径 结果 图 
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这 是 六 度 人 脉 范围 内 , 木 婉 清 希望 认识 阿 朱 的 任意 一 条 最 短路 径 。 
度 中 心性 : 就 是 节点 的 连接 边 数 。 


match (n: 人 物 ) 

return n. 姓 名 as 姓名 ，size((n) - [] - ()) as degree 
order by degree desc 

limit 10 


运行 结果 如 图 8-23 所 示 。 


姓名 degree 
"Ban kad 
^u 428 
"Fat 310 
"Casu 266 
"Bt 246 
"王语嫣" 236 
"Bub" 236 
“AREA” 228 
"5g qs" 222 
“DAS 200 


图 8-23 天 龙 八 部 中 的 度 中 心性 结果 排序 展示 图 


结果 很 有 意思 , 段 誉 的 关系 数 最 多 。 那 么 谁 与 段 誉 的 关系 最 亲密 呢 ? 代 码 如 下 : 


match (n1: 人 物 {姓名 : ' 段 誉 '}) - [x] ->(n2) 

return n1. 姓 名 as W, n2. 姓 名 as 目标 , r.weight as 关系 权重 
order by 关系 权重 desc 

limit 10 


运行 结果 如 图 8-24 所 示 。 
源 


目标 关系 权重 
LL “Zia 568 
fait "NUR 469 
Bet "essa" 259 
[ra "amt 220 
Bu emu 198 
Be “ 王 姑娘 * 130 
Lg “BAF 121 
B "B 119 
L3 “BES 113 
Hu EL 110 


8-24 天龙 八 部 中 与 段 誉 关系 最 亲密 排序 展示 图 
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结果 不 出 所 料 , 段 誉 还 是 很 有 妹子 缘 的 ,并 且 王 语 妈 遥遥 领先 。 


8.5  Neo4j 案例 2 一 一 金融 场景 中 的 社交 网 络 分 析 


本 节 将 用 工业 上 常用 的 Neo4j 数据 库 进 行 社交 网 络 与 反 欺诈 分 析 。 

FH admin import 语句 导入 节点 csv 文件 和 关系 csv 文件 。 因 为 此 文件 涉及 敏 
感 信息 ,所 以 不 会 上 传 。 那 么 大 家 在 尝试 的 时 候 , 可 以 根据 文件 格式 ,编造 类 似 数据 ， 
进行 文件 导入 。 

先 看 看 坏 客户 与 其 相关 联 的 亲友 界面 图 ,如 图 8-25 所 示 。 

语句 为 : 


MATCH p= (nl : 坏 客户 ) -- >(n2: 坏 客户 亲友 ) RETURN p LIMIT 25 


图 8-25 坏 客户 与 其 相关 联 的 亲友 图 谱 


好 客户 与 其 相关 联 的 亲友 图 谱 , 如 图 8-26 所 示 。 
语句 为 : 


MATCH p = (n1: 好 客户 ) -- >(n2: 好 客户 亲友 ) RETURN p LIMIT 25 


善于 观察 的 读者 可 以 发 现 ,图 8-25 中 正中 间 的 圆圈 代表 的 是 坏 客户 ,周边 的 圆 
圈 代 表 的 是 坏 客 户 的 联系 人 ; 图 8-26 中 正中 间 的 圆圈 代表 的 是 好 客户 ,周边 的 圆圈 
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图 8-26 ”好 客户 与 其 相关 联 的 亲友 图 谱 
代表 的 是 好 客户 的 联系 人 。 

接 下 来 看 看 二 度 人 脉 。 

先 看 看 坏 客 户 与 坏 客 户 之 间 有 没有 连接 呢 ? 坏 客户 与 坏 客户 之 间 的 图 谱 如 
图 8-27 所 示 。 


match p= (nl: 坏 客户 ) -[*..2] - (n2:3 € P1) return p limit 25 


o ə 
© E 
a 7 4; tA 4a t 
> 66859 为 
i 
9 Vo Pye Nj VS 4 
S © S 


图 8-27. 坏 客户 与 坏 客户 之 间 的 图 谱 
从 图 8-27 中 ,可 以 发 现 坏 客户 与 坏 客 户 之 间 是 有 连接 的 。 仔 细 一 看 ,相关 联 的 
电话 号 码 还 很 类 似 ,如 果 这 些 号 码 是 黑 中 介 的 号 码 , 那 么 一 般 情况 下 ,这 些 客户 就 是 
欺诈 客户 ,可 以 拒绝 他 们 的 贷款 申请 。 
再 来 看 看 好 客户 与 好 客户 之 间 有 没有 连接 吧 。 好 客户 与 好 客户 之 间 的 图 谱 如 
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图 8-28 所 示 。 


match p= (nl1: 好 客户 ) -[*..6] - (n2: 好 客户 ) return p limit 25 


(no changes, no records) 


<P> 


Code 


Completed after 100 ms, 


图 8-28 好 客户 与 好 客户 之 间 的 图 谱 
六 度 人 脉 内 都 没有 连接 ,看 来 没有 这 么 一 个 人 同时 连接 了 多 个 正常 客户 。 
接 下 来 ,再 分 析 3 个 指标 吧 。 
(1) 度 中 心性 


match (n: 好 客户 ) 
return n. user_id as id, size((n) -[: 通 讯 录 ] - ()) as 度 中 心性 ，labels(n) as 标签 
order by 度 中 心性 desc 


运行 结果 如 图 8-29 所 示 。 


id 度 中 心性 标签 

718825539983543e5a88157 866872068" 772 CEP] 
"f48dc6a67b1d4166b6511d63e2deadf1” 723 [好 客户 
"fo282d2735b44191a2e9fd4e51194001" 204 (eer) 
"4b8af0e28ea84323b4923ebb68545486- 172 【好 客户 1] 
“a45c2e3738e348359612f40eb8480d0c” 137 【好 客户 了] 
"879c9769227542c391036c147b22693c" 123 rese] 
“87dcde927e9d460599488926cbad38b2" 121 【好 客户 了] 
"c27d6537ebce49d9b0777bb24045f956* 118 (eer) 
*11018701134d41b7beb35 1e3cabb912c 117 reer) 
"c&Bbaldfb1be4a0f92 1162c70ad5e98e" n DEP] 
"548768751773485cbOc149e455c06226* 87 【好 客户 
"di&SateOcade4f34ba16d1948b88fdd9* 74 CESP] 
*72a6e71233454e9c96accfe2c0cdb6e6* 70 CEEP] 
"cb945763a9084b329ef5a67c 1694840" 51 CEEP] 
“ef74a8cb9aa640ca97d0b7 tedcf9e159* 47 CEPT 
“2576bbd4427d442fa3293f2be769a760” 24 CEEP] 


图 8-29 好 客户 的 度 中 心性 排序 图 
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(2) 接近 中 心性 


match (n1) 

with collect(nl) as nodes 

call apoc. algo. closeness([ ' 通 讯 录 '], nodes, 'both') yield node, score 
return node. user_id as id, score as 接近 中 心性 

order by 接近 中 心性 desc limit 100 


运行 结果 如 图 8-30 所 示 。 


id 接近 中 心性 
"10e072d66a5a4f92a7d385aeebgcceb2" 0.1 

"Bcdf08b2 1bba46d4a411b9dc4b1e933a* 0.1 
"f615173c8e714d26b0283a0c4d3b693d* 0.07692307692307693 
"Qa9ee82e158473ca4fc432dbcB22d42" 0.07142857142857142 
null 0.05263157894736842 
null 0.05263157894736842 
null 0.05263157894736842 
null 0.05263157894736842 
null 0.05263157894736842 
null 0.05263157894736842 
null 0,05263157894736842 


图 8-30 客户 的 接近 中 心性 排序 图 


(3) 中 介 中 心性 


match (n1) 

with collect(nl) as nodes 

call apoc. algo. betweenness([ i iR3& '], nodes, 'both') yield node, score 
set node.betweenness - score 

return node.user id as id, score as 中 介 中 心性 

order by 中 介 中 心性 desc limit 100 


运行 结果 如 图 8-31 所 示 。 

下 面 把 以 上 指标 最 高 的 节点 挑 出 来 ,看 看 他 们 的 连接 状态 。 

为 了 让 大 家 有 更 直观 的 印象 ,下 面 选 度 中 心性 为 24 的 节点 ,看 看 它 的 连接 情况 。 
运行 代码 如 下 : 


match p= (nl{user_id:'2576bbd4427d442fa3293f2be769a760'}) -[] ->(n2) return p 


运行 结果 如 图 8-32 所 示 。 
由 图 8-32 可 知 , 这 个 节点 的 连接 边 数 就 是 24。 


数据 分 析 与 评分 卡 建 模 ( 伍 课 版 ) | 


Python 机 器 学 习 


id 中 介 中 心性 
"e59902bf0bd941378913451c2ea650bc* 8337592 
"eifdibc45f6e49081327b94d281edb9* 667349.2 
"0b9643dcdb4543738069f91a38b0ttc3* 506521 
"18825539983543e5a88157866872068* 297606 
"f48dc6a67b1d4f66b6511d63e2deadf!* 261003 
null 194094 
null 194094 
null 194094 
null 194094 
"47772e023725426ega1fe2c4920940a2* 1928332 
"Gdi3fa2ece9a4cc2273905233835c3b5* 155991 


图 8-31 客户 的 中 介 中 心性 排序 图 


O Gu» a=» 


图 8-32 BER AME 24 的 节点 关系 图 谱 
Neo4j 的 语法 与 应 用 场景 非常 多 ,还 能 用 于 坏 客户 社区 探索 ,交易 欺诈 判定 、 供 


应 链 金 融 等 。 


8.6 Py2neo 


Neo4j 是 一 个 非常 好 用 的 图 关系 数据 库 , 它 可 以 支持 Python 驱动 ,一 般 用 
Py2neo, 安 装 语句 为 : pip install py2neo, 具 体 使 用 方法 官网 上 有 非常 详细 的 解释 , 感 
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兴趣 的 读者 可 以 参考 官网 地 址 : http://py2neo. org/v3/index. html, 如 图 8-33 所 示 。 
安装 步骤 详 见 附录 F 


The Py2neo v3 Handbook » 


Ps, .O | The Py2neo v3 Handbook 
v 7 
PY 2 ne o Py2neo is a client library and toolkit for working with Neo4j from within Python applications and from the c 
' we 
Y f 
O | Note: Documentation for the 2 0 series is available here. 
Table Of Contents Installation 
The Py2neo v3 Handbook 
* Installation To install the latest stable version of py2neo, simply use pip. 
* Requirements. 
* Library Reference. $ pip install py2neo 
Next topic To install the latest bleeding edge code directly from GitHub, use: 


1. py?neo. types - Graph Data Types 
$ pip install gitthttps://github. con/ni gel sna11/py2neo. sit#ess=py2neo 


This Page Note that this code is likely to be unstable. Your mileage may vary. 
Show Source 
Requirements 
Quick search 
= The following versions of Python and Neo4j are supported: 
Enter search terms or a module, class or function. © Python27/33/34/35 
name * Neo4j20/21/22/23/30 (the latest point release of each version is recommended) 


Note also that Py2neo is developed and tested exclusively under Linux using standard CPython distributic 


图 8-33 Py2neo 官网 指导 手册 展示 图 


在 完成 安装 之 后 ,在 Python 中 调用 py2neo 即 可 ,常用 的 两 个 数据 结构 就 是 节点 
和 关系 , 即 Node 和 Relationship. 


from py2neo import Graph, Node, Relationship 


连接 Neo4j 的 方法 很 简单 ,代码 如 下 : 


test_graph = Graph( 
"http://localhost:7474", 
username = "neo4j", 
password - "neo4j" 


test. graph 就 是 已 建立 好 的 Neo4j 的 连接 。 在 连接 Neo4 数据 库 之 后 ,就 可 以 创 
建 节点 了 。 节 点 的 建立 要 用 到 py2neo. Node, 建 立 节 点 的 时 候 要 定义 它 的 节点 类 型 
(label) 以 及 一 个 基本 属性 (property, 包 括 property. key 和 property_value)。 以 下 代 
码 为 建立 了 两 个 测试 节点 。 
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test node 1 = Node(label- "Person", name = "test node 1") 
test node 2 = Node(label- "Person", name = "test node 2") 
test graph.create(test node 1) 
test graph.create(test node 2) 


这 两 个 节点 的 类 型 (label) 都 是 Person ,而 且 都 具有 属性 (property_key) 为 name. 
属性 值 (property_value) 分 别 为 "test_node_1","test_node_2"。 

创建 好 节点 之 后 ,就 可 以 创建 节点 间 的 关系 (Relationship) 了 。 由 于 节点 关系 是 
有 向 的 ,所 以 在 建立 关系 时 ,必须 定义 一 个 起 始 节点 和 一 个 结束 节点 。 值 得 注意 的 
是 ,起 始 节点 可 以 和 结束 节点 是 同一 个 点 ,这 时 候 该 节点 就 存在 一 个 指向 自己 的 
关系 。 

node 1 call node 2 = Relationship(test node 1, 'CALL', test node 2) 

node 1 call node 2['count'] = 1 

node 2 call node 1 - Relationship(test node 2, 'CALL', test node 1) 

node 2 call node 1l['count'] = 2 


test graph.create(node 1 call node 2) 
test graph.create(node 2 call node 1) 


如 以 上 代码 ,分 别 建立 了 test_node_1 指向 test node 2 fil test node 2 指向 test 
node 1 两 条 关系 ,关系 的 类 型 为 "CALL" ,两 条 关系 都 有 属性 count, 且 值 为 1。 

在 这 里 有 必要 提 一 下 , 当 建 立 关 系 时 ,如 果 起 始 节 点 或 者 结束 节点 不 存在 , 则 在 
建立 关系 的 同时 建立 这 个 节点 。 

感 兴趣 的 读者 可 以 参考 官方 文档 进行 属性 、 关 系 的 更 新 等 操作 ,这 里 就 不 再 
JOE. 


8.7 小 结 
本 章 主要 介绍 了 Neo4j 数据 库 Cypher 语言 ,针对 Neo4j 数据 库 的 操作 ,以 两 个 


案例 进行 讲解 ,最 后 介绍 了 Py2neo 对 Neo4j 进行 相关 操作 。 由 于 Neo4j 数据 库 应 用 
场景 非常 多 ,那么 在 后 续 的 学 习 中 ,考验 读者 的 还 是 查找 资料 .理解 消化 能 力 。 
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附录 人 


PyCharm 安 装 步 又 


PyCharm 官网 链接 地 址 为 : http://www. jetbrains. com/pycharm, 下 载 链接 地 
址 为 : http://www. jetbrains. com/pycharm/download/previous. html. 

下 面 以 PyCharm Community 为 例 ,进行 安装 说 明 。 

(1) 右 击 “安装 包 ”, 单 击 “ 以 管理 员 身 份 运行 ”。 

(2) 单 击 Next 按钮 ,如 图 A-1 所 示 。 


Welcome to PyCharm Community 
Edition Setup 


Setup will guide you through the installation of PyCharm 
Community Edition. 


R is recommended that you close all other applications 
before starting Setup. This will make it possible to update. 


relevant system files without having to reboot your 
computer. 


lick Next to continue. 


A-1 PyCharm Community 安装 界面 图 (1) 


| 附录 A Pyramaze (fis) 


(3) 程序 默认 安装 位 置 为 C:\Program Files\JetBrains\ PyCharm Community 
Edition 2018. 2. 5, 单 击 Browse 可 选择 自 定义 安装 目录 ,本 安装 教程 的 自 定义 安装 路 
42H D:\DevTools\Pycharm, #i Next 按钮 ,如 图 A-2 所 示 。 


Choose Install Location 
Choose the folder in which to install PyCharm Community 
Edition. 


Setup will install PyCharm Community Edition in the following folder. To install in a different 
folder, click Browse and select another folder. Click Next to continue. 


图 A-2 PyCharm Community 安装 界面 图 (2) 


(4) 勾 选 64-bit launcher 和 . py( 如 果 是 32 位 操作 系统 , 则 勾 选 32-bit launcher) , 
单 击 Next 按钮 ,如 图 A-3 所 示 o 


Installation Options 
Configure your PyCharm Community Edition installation 


Download and install JRE x86 by JetBrains 


A-3 PyCharm Community 安装 界面 图 (3) 
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(5) 单 击 Install 按钮 ,如 图 A-4 所 示 。 


| Choose Start Menu Folder 
Choose a Start Menu folder for the PyCharm Community Edition |} 
shortcuts. 


Select the Start Menu folder in which you would like to create the program's shortcuts. You 
can also enter a name to create a new folder. 


Peteraing] 

360 安 全 中 心 
Accessories 
Administrative Tools E 
Anaconda (64-bit) 


Auntec 
‘Chromium 应 用 
‘CorelDRAW Graphics Suite XB (64-bit) 


Daum 
Electrum 


[sm [ m ]( conce | 


图 A-4 PyCharm Community 安装 界面 图 (4) 


(6) 安装 大 概 需 要 3 — 4 分钟, 单 击 Finish 按钮 ,至 此 完成 了 PyCharm 
Community 的 安装 ,如 图 A-5 所 示 。 


Completing PyCharm Community 
Edition Setup 


PyCharm Community Edition has been installed on your 
computer. 


lick Finish to dose Setup. 


Run PyCharm Community Edition 


A-5 PyCharm Community 安装 界面 图 (5) 


ux B 
O- 


MySQL 2232 048 


MySQL 官网 链接 地 址 为 : https://www. mysql. com/, 下载 链 接地 址 为 : 
https://www. mysql. com/downloads/ 。 

本 节 以 MySQL 5. 7. 13 为 例 , 进 行 安装 说 明 。 

OD didi" CE QI" Hab" SOR" FEL. 

(2) 勾 选 accept the license terms, it Next 按钮 ,如 图 B-1 所 示 。 

(3) 默认 色 选 Developer Default, 本 安装 教程 选择 勾 选 Custom, 进行 自 定义 安 
装 , 单 击 Next 按钮 ,如 图 B-2 所 示 。 

(4) 本 安装 教程 只 选择 安装 MySQL Server 5.7.13, 单 击 Next 按钮 ,如 图 B-3 
所 示 。 

(5) 单 击 Execute 按钮 ,开始 安装 MySQL Server 5.7.13, 如 图 B-4 所 示 。 

(6) 单 击 Next 按钮 ,如 图 B-5 所 示 。 

(7) 单 击 Next 按钮 ,如 图 B-6 所 示 。 

(8) 单 击 Next 按钮 ,如 图 B-7 所 示 。 

(9) 输入 两 次 密码 ,然后 单 击 Next 按钮 ,如 图 B-8 Bras. 

(10) 单 击 Next 按钮 ,如 图 B-9 所 示 。 

(11) 单 击 Next 按钮 ,如 图 B-10 Bra. 
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o 


It MySQL Installer 


ra sense — Em. 


MySQL. Installer License Agreement 
ing Comm 
To proceed you must accept the Oracle Software License Terms. 


GNU GENERAL PUBLIC LICENSE p" 
Version 2, June 1991 


Copyright (C) 1989, 1991 Free Software Foundation. Inc. 

51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA 
[Everyone is permitted to copy and distribute verbatim copies 
of this license document, but changing it is not allowed. 


Preamble 


The licenses for most softwere are designed to take away your freedom 

fto share and change it. By contrast, the GNU General Public License is 
intended to guarantee your freedom to share and change free 
software--to make sure the software is free for all its users, This 

[General Public License applies to most of the Free Software 

Foundation’s software and to any other program whose authors commit to 
[using it. (Some other Free Software Foundation software is covered by 

[the GNU Library General Public License instead.) You can apply it to 

your programs, too. 


When we speak of fee software, we are relening to freedom, not pice. 
Dec General Public Licenses are designe in make sur thal yu hove - | 
pine rnp 


ond charne fre thie 


E] 1accept the icense terms 


图 B-1 MySQL 5.7.13 安装 界面 图 (1) 


MySQL. Installer Choosing a Setup Type 
m 
Please select the Setuo Tvoe that suits vour use case. 


Developer Default Setup Type Description 

Installs ali products needed for [Allows you to select exactly which products you 

MySQL development purposes would like to install. This also allows to pick other 
[server versions and architectures (depending on 


our OS) 
Server only p » 


Installs only the MySQL Server 
product 


Glient only 


Installs only the MySQL Client 
products, without a server. 


Full 


Installs all included MySQL 
products and features, 


Custom 


Manually select the products that 
should be installed on the 
system. 


图 B-2 MySQL 5.7.13 安装 界面 图 (2) 


| 附录 B。 MySQL 安装 步骤 (155) 


[E] MySQL Installer [UEM x 


MySQL. Installer Select Products and Features 


Adding Community 
Please select the products and features you would like to install on this machine. 
Filter: 


TÉ [ausonware Curent Bunaieany | Gea 


Available Products: Products/Features To Be Installed: 
Ej MYSQ Servers | E MySQL Server 5.7.13 - X64 
自 MySQL Server 
Ej MySQL Server 57 


‘Applications 
MySQL Connectors 
J Documentation 


eem 


ane 


[ «se |][ Nets Cancel 


图 B-3 MySQL 5. 7. 13 安装 界面 图 (3) 


EE  — 3 — < 


MySQL. Installer Installation 


Adding Cc unity 


[E] MySQL Installer 


Press Execute to upgrade the following products. 


Product Status 


IS sas serra seedy bet 


Click [Execute] to install or update the following packages 


<Back |[ Execute | [Cancel 


— 


图 B-4 MySQL 5. 7. 13 安装 界面 图 (4) 
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“Di MySQL installer 


MySQL. Installer Installation 
A ty 
Press Execute to upgrade the following products. 
iud Status Progress — Notes 
Complete 
Show Details > 
ad Newt > 


图 B-5 MySQL 5. 7. 13 安装 界面 图 (5) 


[E] MySQL installer 


MySQL. Installer Product Configuration 
Adding Community 


We'll now walkthrough a configuration wizard for each of the following products. 


You can cancel at any point if you wish to leave this wizard without configuring all the 
products. 


Product Status 
MySQL Server 5713 Ready to Configure 


图 B-6 MySQL 5.7.13 安装 界面 图 (6) 


| 附录 B 。_ MySQL 安装 步骤 (157) 


[E] MySQL Installer 


=<} 


MySQL. Installer 
M! 


Type and Networking 


Server Configuration Type 


Choose the correct server configuration type for this MySQL Server installation. This 
setting will define how much system resources are assigned to the MySQL Server 


Config Type: 


Connectivity. 

Use the following controls to select how you would like to connect to this server. 
V Tcpm Port Number: 336 — 

© Open Firewall port for network access 


Pipe Name: MYSQL 


E] Named Pipe 


© shared Memory Memory Name: MYSQL 


‘Advanced Configuration 


Select the checkbox below to get additional configuration page where you can set 
advanced options tor this server instance. 
T] Show Advanced Options || 


MySQLI 


Ms 


MySQL. Installer 


MySQL Set 


Accounts and Roles 


Root Account Password. 
Enter the password for the root account. Please remember to store this password in a 


MySQL Root Password: eese 


Repeat Password: eel 


Password Strength: Weak 


MYSQL User Accounts 
Create MySQL user accounts for your users and applications. Assign a role to the user that 


consists of a set of privileges. 
Add User. 


Edit User 


MySQL Username 


User Role 


Delete 


图 B-8 MySQL 5. 7.13 安装 界面 图 (8) 
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[5] MySQL Installer 


goes rt db ES 


Installer Windows Service 


| Configure MySQL Server as a Windows Service 


Windows Service Details 


Please specify a Windows Service name to be used for this MySQL Server instance. 
A unique name is required for each instance. 


Windows Service Name: ^ySQL57 
贺 Start the MySQL Server at System Startup 


Run Windows Service as .. 
The MySQL Server needs to run under a given user account. Based on the security 
requirements of your system you need to pick one of the options below. 
@ standard System Account 
Recommended for most scenarios. 


) Custom User 
An existing user account can be selected for advanced scenarios. 


图 B-9 MySQL 5. 7.13 安装 界面 图 (9) 


W MySQL Installer 


MySQL. Installer Plugins and Extensions 
MySQL Serve 


MySQL as a Document Store 
Use the following controls to select how you would like to connect to this server. 
fF] Enable x Protocol / MYSQL as a Document Store 


Port Number: 33060 


Open Firewall port for network access 


Starting with MySQL Server 5.7, MySQL supports document store development. In 
order to provide a complete document store/NoSQL experience there is a new 
communications protocol called the X Protocol. The expanded capabilities of the X 
Protocol enable us to provide modern developer APIs with features such as 
asynchronous calls, pipelining, and more. In addition to implementing document 
collections, the new X DevAPI also supports relational and combined document 
store/relational capabilities, Now developers, designers and DBAS can deploy 
MySQL databases that implement document store, relational, or hybrid 
document/relation models. 


Click here to view MySOL as a Document Store online documentation 
| 
«Bak | [ Next> Cancel 


图 B-10 MySQL 5. 7. 13 安装 界面 图 (10) 


| 附录 B。 MySQL 安装 步骤 (159) 


(12) 单 击 Execute 按钮 ,如 图 B-11 所 示 。 


"E MySQL Installer 


(13) 单 击 Finish 按钮 ,完成 Product Configuration 的 安装 ,如 图 B-12 所 示 。 


MySQL Installer 


Apply Server Configuration 


Press [Execute] to apply the changes 


[ Configuniion Ses [n 


O stopping server [ë necessary] 

Writing configuration file 

Updating firewall 

Adjusting Windows service [if necessary] 

Initializing Database [if necessary] 

O starting Server 

Applying security settings 

Creating user accounts 

Updating start menu Link 

Updating Firewall for MySQL Document Data Feature Set 


图 B-11 MySQL 5.7.13 安装 界面 图 (11) 


f [E] MySQL Installer 


MySQL. Installer 


MYSQL Serve 


«Bak |{ Execute | 


Es) 


Apply Server Configuration 


The configuration operation has stopped. 
Configuration Steps [tog 3) 

© stopping Server [if necessary] 
Writing configuration file 
Updating firewall 
Adjusting Windows service [if necessary] 
Initializing Database [i necessary] 
Starting Server 
Applying security settings 
Creating user accounts 


Ø 
g 
Ø 
Ø 
g 
g 
g 
© Updating Start Menu Link 
g 


Updating Firewall for MySQL Document Data Feature Set 


Configuration for MySQL Server 5.7.13 has succeeded. Please click Finish to 
continue. 


图 B-12 MySQL 5.7.13 安装 界面 图 (12) 
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(14) 单 击 Next 按钮 ,如 图 B-13 所 示 。 


MySQL. Installer 


(15) 单 击 Finish 按钮 ,至 此 完成 了 MySQL 5. 7. 13 的 安装 ,如 


MySQL. Installer 


图 B-13 MySQL 5. 7. 13 安装 界面 图 (13) 


Product Configuration 


We'll now walk through a configuration wizard for each of the following products. 
You can cancel at any point if you wish to leave this wizard without configuring all the 
products. 


Product Status 
MySQL Server 5713 Configuration Complete, 


Next > Cae | 


Installation Complete 


The installation orocedure has been comoleted. 


图 B-14 MySQL 5. 7. 13 安装 界面 图 (14) 


"tx C 


ac» ? 


MongoDB IEIR 


MongoDB 官网 链接 地 址 为 : https://www. mongodb. com/ ,下载 链 接地 址 为 : 
https://www. mongodb. com/download-center/community. 

本 节 以 MongoDB 4. 0. 4 社区 版 为 例 , 进 行 安装 说 明 。 

(1) 右 击 “安装 包 ”, 单 击 “ 安 装 ” 按 钮 。 

(2) 单 击 Next 按钮 ,如 图 C-1 所 示 。 


$i MongoDB 4.0.4 2008R2Plus SSL (64 bit) Setup = x 


Welcome to the MongoDB 4.0.4 
2008R2Plus SSL (64 bit) Setup Wizard 


The Setup Wizard will install MongoDB 4.0.4 2008R2Plus SSL 
(64 bit) on your computer. Click Next to continue or Cancel to 
ext the Setup Wizard. 


图 C-1 MongoDB 4.0.4 安装 界面 图 (1) 


(2) Python 机 器 学 习 一 数据 分 析 与 评分 卡 建 模 ( 微 课 版 ) | 


(3) 勾 选 I accept the terms in the License Agreement. i Next 按钮 ,如 图 C-2 


所 示 。 
MongoDB 4.0.4 2008R2Plus : TT i 
End-User License Agreement | 
Please read the following license agreement carefully \ 
Server Side Public License a | 
VERSION 1, OCTOBER 16, 2018 B 


Copyright © 2018 MongoDB, Inc. | 
Everyone is permitted to copy and distribute verbatim copies of 
this 
license document, but changing it is not allowed. 


TERMS AND CONDITIONS 


« 


(I accept the terms in the License Agreement 


图 C-2 MongoDB 4. 0. 4 安装 界面 图 (2) 


(4) 本 安装 教程 选择 自 定 义 安装 , 单 击 Custom 按钮 ,如 图 C-3 所 示 。 


1E MongoDB 4.0.4 2008R2PI — c 


Choose Setup Type 
Choose the setup type that best suits your needs 


| 
| All program features will be installed. Requires the most disk space. 
Recommended for most users. | 


Allows users to choose which program features will be installed and where they 
will be installed. Recommended for advanced users. 


dm = | po | 


C-3 MongoDB 4. 0. 4 安装 界面 图 (3) 


XC M DBR 
| 时 ongoDB 安 装 步 又 


(5) 程序 默认 安装 位 置 为 C:\Program Files\ MongoDBN Server \ 4. 0\, 单 击 
Browse 可 选择 自 定 义 安装 目录 ,本 安装 教程 的 自 定义 安装 路 径 为 D:\DevTools\ 
MongoDB\ , 单 击 Next 按钮 ,如 图 C-4 所 示 。 


Custom Setup 
Select the way you want features to be installed. 


Click the icons in the tree below to change the way features will be installed. 


ur MongoDB 4.0.4 2008R2Plus SSL (64 
bit) 


This feature requires 113KB on your 
hard drive. It has 6 of 6 subfeatures 


‘selected. The subfeatures require 
627MB on your hard drive. 
UD 
Location: D:\DevTools\MongoDB\ pe 


图 C-4 MongoDB 4. 0. 4 安装 界面 图 (4) 
(6) 单 击 Next 按钮 ,如 图 C-5 所 示 。 


MongoDB 4.0.4 2008R2PI SSL (64 bit) Service Customization 


Service Configuration 
‘Specify optional settings to configure MongoDB as a service. 


[V] Install MongoD as a Service 
@ Run service as Network Service user 
(C) Run service as a local or domain user: 


Account Domain: [Se 
Account Name: re o ————— 
e———— [—— — —] 


Service Name: [Mono — 
Data Directory: [D:\DevTools\MongoD8\data\ 
Log Directory: |D:\DevTools\MongoDB\log\ 


[sem]. nene.) (coat) 


C-5 MongoDB 4.0. 4 安装 界面 图 (5) 
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OQ 


(7) A85] 3€ Install MongoDB Compass. #i Next 按钮 ,如 图 C-6 所 示 。 


1E MongoDB Compass. 


Install MongoDB Compass 
MongoDB Compass is the official graphical user interface for MongoDB. 


By checking below this installer will automatically download and install the latest 
version of MongoDB Compass on this machine. You can leam more about 
MongoDB Compass here: https://www.mongodb.com/products/compass 


图 C-6 MongoDB 4. 0. 4 安装 界面 图 (6) 


(8) 单 击 Install 按钮 ,如 图 C-7 所 示 。 


iff! MongoDB 4.0.4 2008R2Plus S: 


Ready to install MongoDB 4.0.4 2008R2Plus SSL (64 bit) go 


Click Install to begin the installation. Click Back to review or change any of your installation 
settings. Click Cancel to exit the wizard. 


| (me jJ orem 0] (one 


图 C-7 MongoDB 4. 0. 4 安装 界面 图 (7) 


| 附录 C — MongoDB ZEE (165) 
A 


(9) 安装 大 概 需 要 3 一 4 分 钟 , 单 击 Finish 按钮 ,至 此 完成 了 MongoDB 4. 0. 4 £F 
区 版 的 安装 ,如 图 C-8 所 示 。 


if! MongoDB 4.0.4 2008R2Plus SSL (64 bit) Setup 是 


Completed the MongoDB 4.0.4 
2008R2Plus SSL (64 bit) Setup Wizard 


Glick the Finish button to exit the Setup Wizard. 


图 C-8 MongoDB 4. 0. 4 安装 界面 图 (8) 


Neo4j PUR 


Neo4j 官网 链接 地 址 为 : https: //neo4j. com/ ,下 载 链接 地 址 为 : https://neo4j. 
com/download-center/ # releasesreleases/ %23releases。 

本 节 以 neo4j-3.4.9 社区 版 为 例 , 进 行 安装 说 明 。 

(1) 解压 zip 文件, 将 解压 后 的 文件 复制 到 自己 想 要 的 安装 目录 下 ,本 安装 教程 
的 目录 为 : D:\DevTools\neo4j-community-3. 4.9, 如 图 D-1 所 示 。 


| || £F neosj-comr 


=. 
x DET s REN sm 大 小 
t 下 bin 2018/10/319:19 xi% 
i I. certificates 2018/10/231907 xt 
toe E conf 2018/10/23 18:19 xi 
J data 2018/10/31 10:27 HR 
mm 下 import 2018/10/12 15:01 ”文件 夹 
man È iib 2018/10/23 18:19 ”文件 赤 
crm 下 logs 2018/11/28 16:53 ”文件 去 
j & plugins 2018/10/24 20:45 ZiR 
d kn 2018/10/1215:01 。 文件 去 
ae ) hs_err_pid2300.log 2018/10/31 16:16 ”文本 文档 304 KB 
t ) hs_err_pid8312.log 2018/10/31 15:39 ”文本 文档 305 kB 
t ) UICENSEtxt 2018/10/12 15:01 TXT 文件 36 KB 
5 ) LICENSES. txt 2018/10/121501 ”TXT 文件 86KB 
FE ) NOTICE: bct 2018/10/1215:01 ”TXT 文件 7KB 
) README.bet 2018/10/1215:01 TXT 文件 2KB 
) UPGRADE-t«t 2018/10/12 15:01 ”TXT 文件 1KB 
n 


图 D-1 MongoDB 4. 0. 4 安装 界面 图 


| eso Neoseek (16) 


(2) Neo4j 环境 配置 , 单 击 “ 计 算 机 -属性 -高 级 系统 设置 ”, 单 击 “ 环 境 变量 ”按钮 。 
在 “系统 变量 ” 栏 下 单 击 “ 新 建 " 按 钮 ,创建 新 的 系统 环境 变量 ,如 图 D-2 所 示 。 


AREE ve I x 
[irme [m | mh 
要 进行 大 多 数 更 改 ， 您 必须 作为 管理 员 登 录 
性 能 
视觉 效果 ， 处 理 器 计划 ， 内 存 使 用 ， 以 及 虚拟 内 存 D:\DevTools\¥S Code\bin — 
‘XUSERPROFILEX\AppData\Local VTenp 
[EE(G...] KUSERPROFILEX\AppData\Local\Tenp 
用 户 配置 文件 
SERTRADABOR Gwe) (ARO...) eo 
3 LI 
启动 和 故障 恢复 Destination=file 
系统 启动 、 系 统 失败 和 调试 信息 C:\Progran Files (x86)VConnon F... 
XJAVA_HONEN\ 11b; XJAVA, HONEXNLID. .. 
C:\Windows \eystea32\cad, exe 


(3) 新 建 NEO4J_ HOME 变量 ,对 应 的 变量 值 为 Neo4j 的 安装 目录 ,本 教程 安装 
目录 为 : D:\DevTools\neo4j-community-3. 4.9, 单 击 “ 确 定 ” 按 钮 ,如 图 D-3 所 示 o 


D-2 ”Neo4j 环境 配置 图 (1) 


t. Ll LX jJ 


NEO4J HOME 


[D:\DevTools\neodj-connunity-3. 4.9 | 


(az) Lea) 


TE (S. 
变量 值 e 
FP NO HOST C... NO 
JAVA HOME D:\DevTools\ jdk1. 8 
NEO4J_HOME D:\DevTools\neo4j-conaunity-3. 4. 9 
NUMBER_OF_PR... 8 


(ak) (GO) ao 


图 D-3 Neo4j 环境 配置 图 (2) 


L az | [取消 ] 


a 


2) 


Python 机 器 学 习 一 一 数据 分 析 与 评分 卡 建 模 ( 微 课 版 ) | 


(4) 新 建 PATH 变量 ,对 应 的 变量 值 为 Neo4j 的 安装 目录 的 bin, 本 教程 安装 目 
录 为 : D:\DevTools\neo4j-community-3. 4. 9\ bin , 单 击 “确定 ”按钮 ,如 图 D-4 所 示 。 


环境 变量 w x 


XNEO4J HOMEX bin. 


确定 


MEX\bin; ¥JAVA_HOME%\ jre. . . 
PATHEXT .CON;.EXE;.BAT;.CND;.VES;.VBE;.... ~ 


SEO... | | 编辑 (1),,， 删除 (L) 


mE [mA 


图 D-4 Neo4j 环境 配置 图 (3) 
(5) 检验 Neo4j 是 否 安装 正确 ,可 以 打开 cmd 窗口 ,切换 到 安装 目录 的 bin 目录 
下 : cd/d D:\DevTools\neo4j-community-3. 4. 9\bin, 然 后 启动 Neo4j 服务 。 先 后 输 


入 : neo4j install-service 和 neo4j start, 即 可 启动 Neo4j 服务 ,如 图 D-5 所 示 


E EA: C\Windows\system32\cmd exe 基 i = a 


Ft Windows 【版 本 6. 1.7601] ^ 
版 权 所 有 (c) 2009 Microsoft Corporation。 保 留 所 有 权利 。 


s\hf>cd /d D:\DevTools\neo4 j-community-3. 4. 9\bin | 


D: \DevTools\neo4j-community~3. 4. 9\bin>neo4j install-service 
Neo4j service installed 


D: \DevTools\neo4 j-communi ty-3. 4. 9\bin>neo4j start 
Neo4j service started 


-communi ty-3. 4. 9\bin. 


图 D-5 Neo4j 启动 图 


附录 D ”Neo4j 安 装 步 又 (169) 
=O 


(6) 打开 浏览 器 ,在 浏览 器 中 输入 网 址 : http://localhost :7474/browser/ . HI] nf 
进入 Neo4j 界面 ,如 图 D-6 所 示 。 


© © localhost 7474/browser/ 


Connect to Neo4j Connect URL 
Database access requires an authenticated boit /^ocalhost 7687 
connection 
Usemame 
neod 


Password 


Connect 


图 D-6 Neo4j 界面 


its E 
eO 


jak te 


jdk 下 载 链接 地 址 为 : https://www. oracle. com/technetwork/java/javase/ 
downloads/index. html. 

本 节 以 jdk-8u111 为 例 , 进 行 安装 说 明 。 

CD 右 击 “ 安 装 包 ”, 单 击 “ 以 管理 员 身 份 运行 ”。 

(2) 单 击 “ 下 一 步 ” 按 钮 ,如 图 E-1 所 示 。 


欢迎 使 用 Java SE 开发 工具 包 8 Update 111 的 安装 向 导 


本 向 导 将 指导 您 完成 Java SE 开发 工具 包 8 Update 111 的 安装 过 程 。 


Java Mission Control 分 析 和 诊断 工具 套件 现在 作为 Jok 的 一 部 分 提供 。 


图 E-1 jdk-8ulll 安装 界面 图 (1) 


| 附录 E jdk 安 装 步骤 (171) 


o 
(3) jdk 默认 安装 位 置 为 C:\Program Files\Java\jdk1. 8.0_111\, 单 击 更 改 可 选 

择 自 定义 安装 目录 ,本 安装 教程 的 自 定义 安装 路 径 为 D:\DevTools\jdk1. 8, 单 击 “ 下 

一 步 ? 按 钮 ,如 图 E-2 所 示 。 


从 下 面 的 列表 中 选择 要 安装 的 可 选 功能 。 您 可 以 在 安装 后 使 用 控制 面板 中 的 "添加 /删除 程序 " 
实用 程序 更 改 所 选择 的 功能 


功能 说 明 

Java SE Development Kit 8 Update 
111 (64-bit), 包括 JavaFX SDK, 一 
个 专用 JRE 以 及 Java Mission 
Control 工具 套件 。 它 要 求 硬盘 
驱动 器 上 有 180M8 空间 。 


安装 到 : | 
D:\DevTools\jdk1.8\ [ meg. ] | 


i-e) RA 


U = = 


图 E-2 jdk-8u111 安装 界面 图 (2) 
(A) jre 默认 安装 位 置 为 C:\Program Files\Java\jrel. 8. 0_111\, 单 击 “ 更 改 可 选 
择 自 定义 安装 目录 ”, 本 安装 教程 的 自 定义 安装 路 径 为 D:\DevTools\jrel. 8, 单 击 “ 下 
一 步 ? 按 钮 ,如 图 E-3 所 示 。 


单 击 EBU 以 将 Java 安装 到 其 他 文件 夹 。 


gum. 


DADevToolsVre18 


Lm J[ |) 


图 E-3 jdk-8u111 安装 界面 图 (3) 


(9) Python 机 器 学 习 一 数据 分 析 与 评分 卡 建 模 ( 微 课 版 ) | 


(5) 单 击 “ 关 闭 ? 按 钮 ,至 此 完成 了 jdk-8u111 的 安装 ,如 图 E-4 所 示 。 


1E Java SE Development Kit 8 Update 111 (64-bit) - ze 


Java SE Development Kit 8 Update 111 (64-bit) 已 成 功 安装 


Sue = Una, AFI 文档 , 开发 人 员 指 南 , 发 布 说 明 及 更 多 内 容 , 帮助 您 开 
]JDK。 


m7 


图 E-4 jdk-8u111 安装 界面 图 (4) 
(6) jdk 环境 配置 , 单 击 * 计 算 机 -属性 -高 级 系统 设置 ”环境 变量 ”。 在 “系统 变 
量 ? 栏 下 单 击 “新 建 ? 按 钮 ,创建 新 的 系统 环境 变量 ,如 图 E-5 所 示 。 


nme es x 
meas ER “| 系统 保护 | 远程 
| Siünxsmmm, SDRIAERAER. hf 的 用 户 变量 (U) 
| twi Er1 ‘a 
视 帝 效 果 ， 处 理 器 计划 ， 内 存 使 用 ， 以 及 虚拟 内 存 Path DnWevroolsWS Code\bin | 
‘TEMP ‘XUSERPROF ILE%\AppData\Local\Tenp 
TEP KUSERPROFILEX\AppData\Local\Tenp 
| “用 六 本 于 文件 
SSXORXODABOR COE ... | | meo | 
系统 变量 (S) 
- zü a 
ANIA asl. log Destinatlon-file 
系统 启动 、 系 统 失败 和 调试 信息 C_ENG4T_REDI... C:\Progran Files (x86)\Connon 
CLASSPATH ‘%JAVA_HOMEX\1ib, XJAVA. HONEXM 1b. .. 
ConSpec C:\Windows \system32\cad. exe - 
C] 
AE BA EAW —— 


图 E-5 jdk 环境 配置 图 (1) 


(7) 新 建 JAVA_HOME 变量 ,对 应 的 变量 值 为 jdk 的 安装 目录 ,本 教程 安装 目 
录 为 : D:\DevTools\jdk1. 8, 单 击 “ 确 定 ” 按 钮 ,如 图 E-6 所 示 。 


| 附录 E_jdk 安 装 步骤 A 


INESE LLLI x 


JAVA. HONE 


D:VDevToolsVjdkl. 8| 


[WE J[ ms ) 


变量 值 = 
asl. log Destination=file (3 
C ENG4T REDI... C:\Program Files (x86) Common F... 
ConSpec C:\Windows \systen32\cad. exe 

CUDA_PATH C:\Program Files\NVIDIA GPU Com... ~ 


Law...) [sim co... J| we J 
(mE j[ ma | 


图 E-6 jdk 环境 配置 图 (2) 

(8) 新 建 Path 变量 ,对 应 的 变量 值 为 jdk 安装 目录 的 bin 和 jre\bin, 本 教程 的 变 

量 值 为 : %JAVA_HOME%\bin; %JAVA_HOME%\jre\bin, 单 击 “ 确 定 ” 按 钮 ,如 
图 E-7 所 示 。 


环境 变量 se" 


Path 


‘%JAVA_HOME%\bin; %JAVA_HOME®\ jre\bin| 


a aa 


变量 

asl.log Destination-file 
C EMé4T REDI... C:\Program Files (x86) VCommon F... 
ComSpec (C:\Windows \system32\cnd. exe 

CUDA_PATH C:\Program Files\NVIDIA GPU Com... ~ 


(ew...) [sii co... | Uo ] 
(mE J( m j 


E7 jdk 环境 配置 图 (3) 
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(9) 新 建 CLASSPATH 变量 , 取 值 为 安装 目录 的 bin lib\dt. jar 和 lib\tools. jar» 
本 教程 的 变量 值 为 : %JAVA_HOME 
%JAVA_HOME%\lib\tools. jar, 单 击 “ 确 定 ” 按 钮 ,如 图 E-8 所 示 。 


% \ lib; 96 JAVA, HOME% \lib\dt. jar; 


环境 变量 x 


CLASSPATH 


ib\dt. jar; %JAVA_HOME%\1ib\t 


mW)... | | 编辑 (1),.， RL) | 


图 E-8 jdk 环境 配置 图 (4) 
(10) 检验 jdk 是 否 安装 正确 ,可 以 打开 cmd 窗口 ,输入 java-version ,如 果 能 够 查 
看 到 Java 版 本 信息 ,说 明 安 装 正 确 , 如 图 E-9 所 示 。 


6. 1. 7601] 
t Corporation。 保 留 所 有 权利 。 


图 E-9 java-version 命令 图 


附录 下 
O- 


T ÀJ ERE 


本 节 以 第 三 方 包 imblearn 为 例 ,进行 安装 说 明 。 
(1) 打开 Anaconda 文件 夹 下 的 Anaconda Prompt 窗口 ,如 图 F-1 所 示 。 
JL Anaconda3 (64-bit) 
£O Anaconda Navigator 
lll Anaconda Prompt 
= Jupyter Notebook 


Reset Spyder Settings 
€ Spyder 


图 F-1 Anaconda Prompt # ifii Al 
(2) 在 窗口 输入 : pip install imblearn, 如 图 F-2 所 示 。 
(3) 等 待 安装 ,提示 Successfully installed imbalanced-learn-0. 4. 3, 即 为 安装 成 
功 , 如 图 F-3 所 示 。 
对 应 的 第 三 方 包 的 安装 .都 是 打开 Anaconda Prompt 命令 窗口 ,输入 : pip install 
第 三 方 包 名 。 例 如 ,pip install jiebe,pip install wordcloud 等 。 
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画 EA: C:\Windows\system32\cmd.exe 


PETTIS ES 


evTools\Anaconda3) C:\Users\hf\Documents>pip install imblearn 


M 


图 F-2 imblearn 安装 界面 图 


hf\Documents 


图 F-3 imblearn 安装 成 功 界面 图 


图 书 资 源 支 持 


感谢 您 义 来 对 清华 版 图 书 的 支持 和 爱护 。 为 了 配合 本 书 的 使 用 ,本 书 
提供 配套 的 资源 ,有 需求 的 读者 请 扫描 下 方 的 " 书 圈 " 微 信 公 众 号 二 维 码 ,在 
书 专区 下 载 ,也 可 以 拨打 电话 或 发 送 电 子 邮 件 咨询 。 


如 果 您 在 使 用 本 书 的 过 程 中 遇 到 了 什么 问题 ,或 者 有 相关 图 书 出 版 计划 ， 
也 请 您 发 邮件 告诉 我 们 ,以 便 我 们 更 好 地 为 您 服务 


我 们 的 联系 方式 : 


地 d: 北京 市 海淀 区 双 清 路 学 研 大 厦 A 座 707 


邮 编 : 100084 THT Hei 
& — j&: 010— 62770175 — 4520 


资源 下 载 : http://www. tup. com. cn 


电子 邮件 : huangzh@tup. tsinghua. edu. cn 


QQ: 81283175( 请 写 明 您 的 单位 和 姓名 ) 


用 微 信 扫 一 扫 右 边 的 二 维 码 , 即 可 关注 清华 大 学 出 版 社 公众 号 “ 书 圈 ”。 


